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文 志 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 个 
领域 取得 了 芍 断 性 的 优势 ;也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈出 、 
独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 科 中 的 许多 
泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 划 了 研究 的 范畴 ， 
还 掏 示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 益 
迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 成 略 上 显 
得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 
儿 十 年 间 积 次 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 
将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 
大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 >”。 自 1998 年 开始 ， 我 们 就 将 工 
作 重 点 放 在 了 遵 选 、 移 译 国外 优秀 教材 上。 经 过 多 年 的 不 娩 努 力 ， 我 们 与 Pearson, McGraw- 
Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 和 良好 的 合作 
关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain 
W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, 
Abraham Silberschatz, William Stallings, Donald E.Knuth, John L. Hennessy, Larry 
L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 
研究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 稀 力 了 囊 助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 在 中 
国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 
名 种， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 其 影 
印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 图 
书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 
教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反 
饥 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工作 提出 
建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 

华章 网 站 : www. hzbook. com 

电子 邮件 : hzjsj@hzbook. com 

联系 电话 : (010) 88379604 

联系 地 址 : 北 泵 市 西城 区 百 万 庄 南 街 1 号 

邮政 编码 : 100037 





华章 科技 图 书 出 版 中 心 
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从 20 世纪 40 年 代 M-P 神经 元 模型 的 提出 开始 ， 神 经 网 络 的 发 展 过 程 可 谓 是 一 波 三 折 。 
1965 年 M. Minsky 和 S. Papert 的 《感知 机 》 使 得 神经 网 络 的 研究 停滞 了 超过 10 年 ， 直 到 20 
世纪 80 年 代 初 Hopfield 网 络 和 误差 反 向 传播 算法 等 的 提出 ， 神 经 网 络 的 研究 才 步 人 恢复 期 。 
时 人 至今 日， 神经 网 络 系统 研究 的 重要 意义 已 经 得 到 广泛 承认 ， 在 模式 识别 、 人 工 智能 、 通 信 、 
控制 、 金 融 、 机 器 人 、 生 物 信 息 学 等 许多 领域 都 有 广泛 应 用 。 可 以 说 神经 网 络 作为 目前 非 线性 
科学 和 计算 智能 研究 的 主要 内 容 之 一 ， 已 经 成 为 解决 很 多 实际 问题 的 一 种 必要 的 技术 手段 。 

本 书 作 者 Simon Haykin 长 期 从 事 神经 网 络 的 研究 ， 其 关于 神经 网 络 的 系列 教材 是 国际 上 
最 有 影 啊 力 的 教材 之 一 。 本 书 是 其 经 典 教 材 《Neural Networks: A Comprehensive Founda- 
tion》 的 第 3 版 。 正 如 本 书 的 题目 所 示 ， 这 一 版 对 神经 网 络 和 机 器 学 习 这 两 个 密切 相关 的 分 支 
进行 了 全 面 分 析 ， 在 前 一 版 的 基础 上 作 了 广泛 修订 ， 提 供 了 神经 网 络 和 机 器 学 习 这 两 个 重要 性 
持续 增长 的 学 科 的 最 新 分 析 。 本 书 全 面 、 系 统 地 介绍 了 神经 网 络 的 基本 模型 、 基 本 方法 ， 对 神 
经 网 络 的 基本 模型 和 主要 学 习 理论 作 了 深入 研究 ， 对 神经 网 络 的 最 新 发 展 趋势 和 主要 研究 方向 
进行 了 全 面 而 综合 的 介绍 。 

在 翻译 过 程 中 ， 译 者 常常 为 本 书 作 者 严谨 的 治学 态度 及 本 书 博 大 精深 的 内 容 而 赞叹 不 已 。 
本 书 综 合 了 诸多 神经 网 络 和 机 器 学 习 的 最 新 研究 ， 在 翻译 过 程 中 虽然 力求 准确 地 反映 原著 内 
容 ， 但 由 于 译 者 水 平 有 限 ， 翻 译 中 如 有 错漏 之 处 ， 奶 请 读者 批评 指正 。 

本 书 的 翻译 得 到 了 国家 自然 科学 基金 的 资助 (项 目 编号 60975047)， 特 此 表示 感谢 。 同 
时 ， 感 谢 参 与 本 书 翻译 的 全 体 人 人员， 没有 他 们 的 辛勤 工作 ， 本 书 的 中 文 译本 是 无 法 顺利 完成 
的 ; 感谢 本 书 第 2 版“《 神 经 网 络 原理 》) 的 译 者 ， 在 翻译 过 程 中 我 们 大 量 参 考 了 第 2 版 中 文 译 
本 的 内 容 ; 还 要 感谢 南京 大 学 计算 机 软件 新 技术 国家 重点 实验 室 的 支持 。 


南京 大 学 计算 机 科学 与 技术 系 
计算 机 软件 新 技术 国家 重点 实验 室 
申 富饶 

2010 年 10 月 于 南京 
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在 写 这 本 经 典 书籍 第 3 版 的 时 候 ， 我 遵循 了 本 书 第 1 版 的 基本 原则 : 写 一 本 关于 神经 网 络 
的 全 面 的 、 彻 底 的 、 可 读 性 很 强 的 、 最 新 的 论述 。 

新 版 本 更 名 为 《神经 网 络 与 机 器 学 习 》， 主 要 是 为 了 反映 以 下 两 个 事实 ， 

1. 感知 器 、 多 层 感知 器 、 自 组 织 映 射 及 神经 动力 学 ， 以 及 其 他 一 些 通常 被 看 成 是 神经 网 
络 一 部 分 的 主题 ， 这 些 内 容 源 自 人 类 大 脑 所 激发 的 灵感 。 

2. 核 方法 ， 例 如 支持 向 量 机 和 核 主 分 量 分 析 ， 这 些 内 容 源 自 统计 学 习 理 论 。 

虽然 这 两 者 之 间 的 确 有 一 些 共 同 的 基本 概念 各 应用， 但 是 在 神经 网 络 和 机 器 学 习 的 具体 操 
作 上 存在 一 些微 妙 的 差别 。 因 而 ， 如 果 将 这 两 者 放 在 同一 个 体系 下 共同 研究 ， 一 些 潜 在 的 主题 
会 变 得 更 丰富 ， 特 别 体现 在 以 下 方面 : 

。 将 神经 网 络 和 机 器 学 习 的 思想 综合 起 来 以 完成 更 难 的 学 习 任 务 。 这 些 学 习 任务 往往 是 

神经 网 络 或 者 机 器 学 习 自 身 所 无 法 解决 的 。 

。 源 自 人 类 大 脑 的 灵感 往往 会 引起 新 的 特别 重要 的 新 发 现 。 

除 此 之 外 ， 本 书 的 范围 也 有 所 扩大 ， 提 供 了 详细 的 动态 规划 和 逐次 状态 估计 ， 这 两 者 各 自 
都 能 够 在 一 些 重要 方面 影响 强化 学 习 和 监督 学 习 。 


本 书 的 组 织 


本 书 从 导言 部 分 开始 ， 导 言 主 要 讲述 了 编写 本 书 的 动机 ， 可 作为 后 续 章 节 的 阅读 基础 。 本 
书包 括 以 下 6 个 部 分 : 
lL 第 1~4 章 构成 了 本 书 的 第 一 部 分 ， 主 要 介绍 监督 学 习 的 一 些 经 典 方法 。 具 体 介绍 
如 下 ， 
。 第 1 章 描 述 Rosenblatt RAE, MATARA AEM, URE RAE FRA 
ALL ay REN KR 

。 第 2 章 讲述 作为 模型 建立 基础 的 最 小 二 乘法 ， 建 立 了 在 特定 的 高 斯 环境 下 这 一 方法 和 
贝 叶 斯 推理 之 间 的 关系 。 这 一 章 还 讨论 了 用 于 模式 选择 的 最 小 描述 长 度 (MDL) 
Bie. 

。 第 3 章 讲述 最 小 均 方 (LMS) 算法 及 其 收 伍 分 析 。 甚 理论 框架 的 分 析 揭 示 出 两 个 原理 : 
Kushner 直接 法 和 朗 之 万 (Langevin) 方程 〈 在 非 平衡 态 热力 学 中 很 著名 ) 。 

这 三 章 通 过 对 不 同 概念 的 介绍 揭示 了 其 共同 特点 : 它们 都 是 基于 一 个 计算 单元 。 更 为 重要 
的 是 ， 它 们 从 各 自 的 角度 深入 、 细 致 地 讨论 了 学 习 过 程 的 深层 知识 一 一 这 一 特征 将 在 后 续 章 节 
中 进一步 探讨 。 

第 4 章 是 关于 多 层 感 知 器 的 ， 是 Rosenblatt 感知 器 的 广义 版 本 。 这 一 相对 比较 长 的 章节 包 
含 如 下 主题 : 

。 反 回 传播 算法 、 其 优点 和 局 限 性 ， 以 及 将 其 作为 一 个 最 优化 方法 来 计算 偏 导 数 。 

。 学 习 率 的 最 优 退 火 和 自 适应 控制 。 

。 交叉 验证 。 
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Vi 


。 BRNA, 来自 于 Hubel 和 Wiesel 在 视觉 系统 方面 的 开拓 性 研究 ， 
© 将 监督 学 习 视 为 最 优化 问题 ,集中 讨论 共 思 梯度 法 、 拟 牛顿 法 以 及 Marquardt- Leven- 
berg 算法 。 
。 非 线性 滤波 。 
最 后 ， 对 于 小 规模 和 大 规模 学 习 问 题 作 了 对 比 。 
2 oe 部 分 包括 第 5 章 和 第 6 BR, WIC THR FREER (RBF) 网 络 的 核 方法 。 
从 某 种 意义 上 来 说 , 第 5 章 可 以 看 做 是 对 核 方法 的 深入 介绍 。 上 有 具体 来 说 ， 这 一 章 和 包括 如 下 
几 个 方面 。 
。 介绍 Cover 定理 来 作为 对 RBF 网 络 的 构造 结构 的 理论 证 明 。 
。 拉 述 相对 简单 的 用 于 监督 学 习 的 两 阶段 混合 过 程 ， 第 一 阶段 基于 聚 类 思想 CBD K- 均 值 
算法 ) 来 计算 隐藏 层 ， 第 二 阶段 利用 LMS 或 者 最 小 二 乘法 来 计算 网 络 的 线性 输出 层 。 
。 介绍 核 回归 及 其 与 RBF 网 络 的 关系 。 
第 6 章 介绍 支持 向 量 机 〈SVM)， 通 常 这 一 方法 被 认为 是 一 种 监督 学 习 方 法 。 本 质 
SVM 是 一 个 两 类 分 类 器 ， 本 章 中 将 包括 如 下 几 个 主题 : 
。 定义 在 一 对 线性 可 分 的 两 类 之 间 最 大 分 离 边缘 的 条 件 ， 
© 当 两 个 类 是 线性 可 分 或 者 不 可 分 时 用 来 寻找 最 优 超 平面 的 二 次 最 优化 。 
。 将 SVM HARE, HES FRA Mercer 定理 的 讨论 。 
。 SVM 的 设计 原理 ， 
e th Oe a D a li 
表示 定理 及 锅 尔 伯 特 空间 构想 和 再 生 核 希 尔 伯 特 空间 构想 (RKHS) 的 作用 。 
根据 以 上 描述 ， 很 明显 文 持 向 量 机 的 基本 理论 是 建立 在 很 强 的 数学 背景 之 上 的 ， 因 而 
SVM 可 以 作为 监督 学 习 的 一 个 具有 强大 计算 能 力 的 、 一 流 的 工具 。 
3. 本 书 第 三 部 分 只 有 一 章 一 一 第 7 章 。 这 一 章 介 绍 作 为 机 史学 习 核 心 的 正则 化 理论 。 本 
章 将 详细 探讨 如 下 几 个 主题 : 
。 建立 在 第 6 章 讨论 过 的 RKHS 基础 之 上 的 Tikhonov 经 典 正 则 化 理论 。 这 一 理论 隐 含 
了 一 些 深 奥 的 数学 概念 ， Tikhonov %7 M Hy Fréchet 微分 、Riesz 表示 定理 、Euler- 
Lagrange 方 程 、Green 图 数 ， 以 及 多 变量 高 斯 函数 。 
，。 广义 RBF 网 络 及 其 计算 精确 性 的 修正 。 
。 正则 最 小 二 乘 估 计 ， 根 据 表示 定理 的 再 讨论 。 
。 正则 化 参数 估计 ， 利 用 Wahba 的 广义 交叉 验证 概念 。 
。 半 监 督学 习 ， 利 用 有 标签 和 无 标签 样本 。 
© 可 微 流 形 及 其 在 流 形 正则 化 中 的 作用 一 一 设计 半 监 督学 习 机 的 基础 。 
。 寻找 用 于 半 监 督学 习 的 RBF 网 络 中 高 斯 核 顺 数 的 光谱 图 理论 。 
。 处 理 半 监 督 核 机 妖 的 广义 表示 定理 。 
。 用 于 计算 RBF 网 络 线性 输出 层 的 拉 普 拉 斯 正则 最 小 二 习 (LapRLS) 算法 。 这 里 需要 
说 明 的 是 ， 当 内 在 正则 化 参数 〈 对 应 于 无 标签 数据 ) 衰减 为 0 的 时 候 ， FE Di H gE 
减 为 通常 的 最 小 二 乘法 。 
这 一 高 度 理论 化 的 章节 具有 非常 实际 的 重要 意义 。 首 先 ， 它 提供 了 关于 监督 学 习 机 的 正则 
化 基础 。 其 次 ， 它 打下 了 设计 正则 化 半 监 督学 习 机 的 基础 。 
4. 第 8 一 11 章 构成 本 书 的 第 四 部 分 ， 讨 论 非 监督 学 习 。 从 第 8 章 开 始 介绍 由 神经 生物 学 
研究 直接 激发 的 自 组 织 的 四 个 原则 。 
1) 自 增强 学 习 的 Hebb 假定 。 
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2) 单个 神经 元 或 者 一 组 神经 元 的 突 触 连接 为 了 有 限 的 资源 而 进行 的 竞争 。 

3) 在 胜利 神经 元 及 其 邻居 间 的 合作 。 

4) 包含 于 输入 数据 中 的 结构 信息 (如 元 余 )。 

这 一 章 的 主要 主题 包括 三 个 方面 : 

© 原则 1)、2) 和 4)》 应 用 于 单个 神经 元 ， 最 大 特征 滤波 的 Oja 规则 来 源 于 这 些 原则 ;， 通 

过 目 组 织 获 得 的 结果 是 值得 注意 的 ， 它 包含 了 自 底 向 上 和 自 顶 向 下 学 习 。 其 次 ， 最 大 
特征 滤波 思想 被 推广 到 主 分 量 分 析 (PCA) 中 ， 用 来 对 输入 数据 进行 维 数 削 减 ， 其 所 
得 算法 称 为 广义 Hebb 算法 (GHA), 

。 本 质 上 PCA 是 线性 方法 ， 因 而 其 计算 能 力 局 限于 二 阶 统计 量 。 为 了 处 理 高 阶 统计 量 ， 
核 方法 以 类 似 于 第 6 章 支 持 向 量 机 的 相似 方式 应 用 于 PCA， 但 是 和 SVM 的 根本 上 的 
不 同 在 于 ， 核 PCA 是 非 监 督 方式 。 

。 遗憾 的 是 ， 在 处 理 自然 图 像 的 时 候 ， 核 PCA 从 计算 的 角度 变 得 很 难 操 控 。 为 了 克服 这 
一 计算 局 限 性 ， 把 GHA 和 核 PCA 结合 起 来 组 成 一 个 新 的 在 线 非 监督 学 习 算 法 ， 称 为 
核 Hebb 算法 (KHA)， 这 一 方法 可 以 用 于 图 像 去 曲 。 

KHA 的 产生 是 一 个 将 机 器 学 习 的 想法 和 来 源 于 神经 网 络 的 补充 想法 结合 起 来 的 杰出 例 
子 ， 结 合 所 产生 的 新 算法 克服 了 它们 各 自 的 实际 局 限 性 。 

第 9 章 介绍 自 组 织 映射 SOM)， 对 自 组 织 映 射 的 开发 遵从 第 8 章 介绍 的 自 组 织 原 则 。 
计算 角度 来 说 ， 自 组 织 映 射 是 一 个 简单 的 算法 ， 而 且 具 有 内 在 的 构造 拓扑 映射 的 强大 能 力 ， 它 
包括 如 下 一 些 有 用 的 特性 : 

。 从 空间 上 离散 至 近 输 入 空间 ， 负 责 数 据 生成 。 

。 拓扑 次 序 ， 在 某 种 意义 上 神经 元 的 空间 位 置 在 拓扑 图 上 对 应 于 输入 空间 中 的 特定 特征 。 

。 输入 输出 密度 匹配 。 

。 输入 数据 特征 选择 。 

SOM 在 实际 中 被 广泛 应 用 ， 构 造 上 下 文 映射 和 分 层次 矢量 量化 被 作为 SOM 运算 能 力 的 
两 个 有 说 服 力 的 例子 。 事 实 上 ， 今 人 惊异 的 是 ， 尽 管 SOM 展示 了 多 个 有 趣 的 特性 并 且 能 够 解 
决 很 难 的 计算 任务 ， 但 它 依 然 缺 少 一 个 能 用 来 最 优化 的 目标 函数 。 为 了 填补 这 一 缺口 ， 以 提供 
Bc HE Sa Fh ORT AY BY RB HE. BREA TE. IK HE S| A Th eh BE OA ER 
次数 并 且 最 大 化 这 个 函数 来 实现 的 。 我 们 再 次 看 到 了 将 来 自 于 神经 网 络 的 思想 和 补充 的 核 理 论 
思想 结合 所 布 来 的 实际 好 处 。 

第 10 章 探讨 如 何 将 来 自 于 香农 (Shannon) 信息 论 的 原则 作为 工具 来 实现 非 监督 学 习 。 
-MARR KIRPA BE RBI. BAe TA. AAA. ie (KL ae 
念 。 这 一 回顾 也 包括 系 词 (copula) 的 概念 ， 遗 憾 的 是 这 一 概念 几 十 年 来 没有 被 注意 到 。 更 
ee Oe a ea ae ace 
言 息 作为 目标 呆 数 ， 这 一 章 建立 了 如 下 原则 : 

。 最 大 互信 息 原 则 ， 最 大 化 神经 系统 的 输入 和 输出 之 间 的 互信 息 ; 最 大 互信 息 和 宛 余 减 

少 之 间 有 着 很 紧密 的 关系 。 

。 Imax 原则 ， 最 大 化 由 相关 输入 驱动 的 神经 系统 对 的 单一 输出 之 间 的 互信 息 

。 Imin 原则 ， 以 一 种 和 Imax 原则 相似 的 方式 操作 ， 但 这 文 里 是 最 小 化 输出 随机 变量 对 之 
间 的 互信 息 。 

。 独立 分 量 分 析 GCA) 原则 ， 提 供 一 种 很 强 的 工具 用 于 育 分 离 来 自 统 计 独 立 源 信号 的 

隐藏 集合 。 当 满足 一 定 的 操作 条 件 时 ，ICA 原则 将 提供 对 源 信号 进行 恢复 的 起 源 程序 
基础 ， 用 于 恢复 的 信号 来 自 于 对 源 信号 的 线性 混合 变形 的 相应 的 观察 集合 。 这 里 将 介 


ww ai bbt.com P0O000000 





绍 两 个 特别 的 ICA 算法 。 

D 旧 然 梯度 学 习 算法 ， 除 了 拉 伸 和 排列 之 外 ， 通 过 最 小 化 参数 概率 密度 函数 和 相应 的 
阶乘 分 布 之 间 的 KLD 来 解决 ICA 问题 。 

2) 最 大 箭 掌 习 算法 ， 最 大 化 反 混 合 输出 的 非 线性 变换 版 本 的 箭 ， 这 一 算法 通常 被 认为 
是 ICA 的 最 大 化 信息 算法 ， 也 表现 出 拉 伸 和 排列 性 质 。 

第 10 快速 ICA (FastICA) 的 重要 的 ICA 算法 ， 这 一 算法 正如 其 
FERRE. TTR ER. ORES AM ORK IE HE, ree 
人 作为 ICA 的 延续 ， 本 章 继 续 描述 了 一 种 称 为 相关 ICA 的 新 算 
法 ， 基 开发 是 根据 最 大 化 信息 和 Imax 原则 的 融合 并 经 由 连接 函数 的 运用 来 完成 的 ;， 相关 ICA 
A A cee 最 后 ， 第 10 章 介 绍 了 另 一 个 来 自 于 香农 信息 论 
的 称 为 速率 失真 理论 的 概念 ， 这 一 理论 被 用 来 开发 这 一 章 的 最 后 一 个 概念 ， 信息 瓶颈 。 给 定 关 
于 输入 向 量 和 (有 关 的 ) ai E 车 接 分 布 ， 这 一 方法 通过 如 下 方式 被 构造 为 约束 最 优化 问 
ml: 在 两 个 信息 量 之 间 做 一 个 权衡 ， 一 个 信息 量 是 关于 输入 的 瓶 固 向 量 中 包含 的 信息 ， 另 一 个 
信息 生 是 关于 输出 的 瓶颈 向 量 中 所 包含 的 信息 。 这 一 章 将 利用 信息 瓶颈 法 来 寻找 数据 表达 的 最 
优 流 形 。 

第 11 章 讲 述 非 监督 学 习 的 最 后 途径 ， 利 用 源 自 统计 力学 的 随机 方法 来 实现 。 统 计 力 学 的 
研究 和 信息 论 密切 相关 。 这 一 章 从 回顾 Helmholtz 自由 能 箭 概念 〈 从 统计 力学 意义 上 ) F 
始 ， 紧 接着 介绍 马尔 可 夫 链 。 然 后 介绍 用 于 产生 马尔 可 夫 链 的 Metropolis 算法 ， 其 转移 概率 将 
收敛 到 唯一 的 、 稳 定 的 分 布 。 接 下 来 以 两 个 方面 作为 随机 方法 讨论 的 结束 : 一 是 用 于 全 局 最 优 
化 的 模拟 退火 ， 二 是 Gibbs 抽样 ， 它 可 以 作为 Metropolis 算法 的 特殊 形式 。 有 了 手头 这 些 统计 
力学 的 背景 知识 ， 就 可 以 讲述 Boltzmann 机 了 ，Boltzmann 机 从 历史 上 来 说 是 文献 中 讨论 的 第 
一 个 多 层 学 习 机 器 。 遗 憾 的 是 ，Boltzmann 机 的 学 习 过 程 非 常 慢 ， 特 别 是 当 隐 藏 神经 元 的 数目 
很 大 的 时 候 ， 因 而 其 实用 性 是 最 主要 的 缺陷 。 人 们 提出 了 很 多 变种 方法 来 克服 Boltzmann 机 的 
缺点 。 其 中 到 目前 为 止 最 成 功 的 创新 方法 是 深度 信和 度 网 络 ， 它 明智 地 把 下 面 的 两 个 功能 组 合 起 
来 形成 了 一 个 高 效 的 机 器 : 

。 生成 模型 ， 无 监督 地 一 层 一 层 自 底 向 上 学 习 所 得 结果 。 

。 自 顶 回 下 学 习 所 得 结果 。 

， 第 11 章 讲述 确定 性 退火 来 克服 模拟 退 火 极端 的 计算 需求 问题 ; 确定 性 退火 的 问题 
E 

5 到 目前 为 止 ， 本 书 集 中 精力 讲述 了 构造 用 于 监督 学 习 、 半 监 督学 习 和 非 监督 学 习 的 算 
法 。 第 12 章 ， 作 为 本 书 下 一 个 部 分 ， 是 关于 强化 学 习 的 。 强 化 学 习 以 一 种 在 线 方 式 发 生 ， 作 
为 智能 体 〈 如 机 器 人 ) 与 其 周围 的 环境 相互 作用 的 结果 。 实 际 上 ， 动 态 规划 是 强化 学 习 的 核 
心 。 相 应 地 ， 第 15 章 的 前 面部 分 用 来 介绍 Bellman 动态 规划 方法 ， 然 后 用 来 证 明 两 个 广泛 使 
用 的 强化 学 习 方法 : 时序 差分 学 习 (TD) 和 Q -学 习 ， 这 两 种 方法 能 通过 作为 动态 规划 的 特例 
推导 得 出 。TD 学 习 和 Q -学 习 都 是 相对 比较 简单 的 在 线 强 化 学 习 算 法 ， 无 需 转移 概率 知识 。 
然而 ， 其 实际 应 用 局 限于 状态 空间 的 维 数 处 于 中 等 程度 的 情况 。 在 大 规模 动态 系统 中 ， 维 数 灾 
难 变 得 非常 严重 ， 使 得 不 仅仅 是 动态 规划 ， 也 包括 其 近似 形式 的 TD 学 习 和 Q -学 习 变 得 难以 
计算 。 为 了 克服 这 一 严重 的 局 限 性 ， 这 一 章 描 述 了 两 个 通 近 动态 规划 的 非 直 接 方法 : 

。 线性 方法 ， 称 为 最 小 二 乘 策 略 评估 (SPV) 算法 。 

。 非 线 性 方法 ， 利 用 神经 网 络 〈 如 多 层 感知 器 ) 作为 通用 逼近 器 。 

6. 本 书 最 后 一 部 分 包括 第 13、14 和 15 章 ， 讨 论 非 线性 反馈 系统 ， 特 别 强调 递归 神经 
网 络 ， 
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IX 


D 第 13 章 研究 神经 动力 学 ， 对 稳定 性 问题 给 予 了 特别 的 关注 。 这 一 章 介绍 了 Lyapunov 
直接 法 ， 这 个 方法 包含 两 个 定理 ， 一 个 用 来 处 理 系统 稳定 性 ， 另 一 个 用 来 处 理 渐 近 稳定 性 。 这 
一 方法 的 核心 是 Lyapunov 函数 ， 通 常 来 说 能 量 函 数 就 能 满足 这 一 函数 的 要 求 。 有 了 这 样 的 普 
景 知识 ， 就 可 以 引出 两 种 联想 记忆 模型 ， 

e Hopfield 模型 ， 这 一 模型 的 操作 说 明 一 个 复杂 的 系统 是 能 够 产生 简单 的 突现 行为 的 ， 

。 盒 中 脑 状 态 模 型 ， 它 是 聚 类 的 基础 。 

第 13 章 还 讨论 了 混沌 过 程 的 特性 及 其 动态 重 构 的 正则 化 过 程 。 

2) 第 14 章 是 关于 贝 叶 斯 滤波 器 的 ， 贝 叶 斯 滤波 器 至 少 从 概念 意义 上 提供 了 逐次 状态 估计 
算法 的 统一 基础 。 这 一 章 的 发 现 总 结 为 以 下 几 点 : | 

。 经 典 的 线性 高 斯 环境 下 的 卡尔 曼 滤波 器 可 以 通过 利用 最 小 均 方 差 准 则 来 推导 ;在 这 一 

章 最 后 的 一 个 习题 中 ， 证 明 这 样 推导 的 卡尔 曼 滤 波 器 是 贝 叶 斯 滤波 器 的 特例 。 

。 平方 根 滤波 用 来 克服 卡尔 曼 滤 波 在 实际 应 用 中 遇 到 的 发 散 现象 。 

。 扩展 卡尔 曼 滤 波 (EKF) 用 来 解决 动力 系统 中 非 线 性 属于 软 排序 的 情况 ; 保持 高 斯 

假设 。 

。 以 一 个 新 的 称 为 数值 积分 卡尔 曼 滤波 器 (CKF) 的 滤波 器 为 例 来 证 明 贝 叶 斯 滤波 器 的 

直接 逼近 形式 。 这 里 再 次 强调 了 保持 高 斯 假设 。 

。 以 粒子 滤波 器 为 例 来 证 明 贝 叶 斯 滤波 器 的 非 直 接 通 近 形 式 ， 粒 子 滤波 器 的 实现 能 够 调 


节 非 线性 程度 和 非 高 斯 程度 。 
卡尔 曼 滤波 本 质 上 是 预测 -改正 机 制 ， 第 14 章 接着 描述 “关卡 尔 曼 滤波 ”在 人 类 大 脑 的 一 
定 区 域 的 可 能 作用 。 


本 书 第 15 章 研 究 动态 驱动 的 递归 神经 网 络 。 这 一 章 的 开始 部 分 讨论 不 同 的 递归 网 络 结构 
(模型 ) 及 其 计算 能 力 ， 紧 接着 介绍 训练 递归 网 络 的 两 个 算法 : 通过 时 间 的 反 向 传播 和 实时 递 
归 学 习 。 

遗憾 的 是 ， 这 两 个 方法 都 是 基于 梯度 的 ， 容 易 遭 遇 所 谓 的 消失 梯度 (vanishing-gradient) 
问题 。 为 减轻 这 一 问题 ， 本 书 较 详细 地 讨论 了 利用 非 线 性 逐次 状态 估计 ， 采 用 全 新 的 方式 来 对 
递归 网 络 进行 监督 训练 。 这 里 ， 对 于 扩展 卡尔 曼 滤波 器 〈 简 单 ， 但 是 导数 依赖 ) 以 及 数值 积分 
卡尔 曼 滤波 器 〈 导 数 自由 ， 但 是 数学 上 更 加 复杂 ) 作为 监督 学 习 的 逐次 状态 估计 器 的 优 缺 点 进 
行 了 讨论 。 此 外 ， 还 讨论 了 对 递归 网 络 来 说 唯一 的 自 适应 行为 的 出 现 以 及 利用 自 适 应 技巧 来 增 
强 递归 网 络 性 能 的 潜在 好 处 。 

在 本 书 不 同 部 分 出 现 的 一 个 重要 的 主题 是 ， 将 监督 学 习 和 半 监 督学 习 应 用 于 大 规模 问题 。 
这 包括 本 书评 论 中 所 指出 的 这 一 主题 还 处 于 发 展 的 初期 阶段 ; 更 重要 的 是 ， 本 书 还 为 这 一 问题 
的 未 来 发 展 描述 了 四 阶段 过 程 。 


本 书 特色 


本 书 完 整 、 详 尽 地 讨论 了 各 个 主题 ， 除 此 之 外 ， 本 书 还 有 以 下 几 个 截然 不 同 的 特色 : 

1. 第 1~? 章 以 及 第 10 章 包含 计算 机 实验 ， 涉 及 双 月 形态 ， 为 两 类 分 类 问题 产生 数据 。 
实验 涵盖 了 从 简单 的 线性 可 分 模式 例子 到 困难 的 不 可 分 模式 例子 。 作 为 运行 例子 的 双 月 形态 ， 
被 用 于 第 1 一 7 章 以 及 第 10 章 ， 因 而 提供 了 一 个 用 于 研究 和 比较 这 8 章 中 描述 的 算法 的 实验 
途径 。 

2. 针对 第 8 章 的 主 分 量 分 析 、 第 9 BA SOM 和 核 SOM， 以 及 第 15 BHAA EKF 和 
CKF 算法 对 Mackay-Glass 吸引 子 进行 动态 重 构 等 ， 也 进行 了 计算 机 实验 。 

3. 给 出 了 几 个 利用 现实 数据 进行 研究 的 例子 : 
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。 第 ?7 章 讨 论 了 利用 拉 普 拉 斯 RLS 算法 对 美国 邮政 服务 (USPS) 数据 进行 半 监 督学 习 。 
。 第 8 章 讨 论 了 如 何 将 PCA 应 用 于 手写 数字 数据 ， 并 描述 了 如 何 对 图 像 进行 编码 和 
EIR. 

。 第 10 章 利用 稀 朴 传 感 编码 和 ICA 对 自然 图 像 进行 分 析 。 

。 第 13 章 利用 正则 RBF 网 络 将 动态 重 构 应 用 于 Lorenz 吸引 子 。 

第 15 章 也 包含 了 一 节 关 于 模型 参照 自 适应 控制 系统 的 案例 研究 。 

4. 每 一 章 的 最 后 都 有 注释 和 参考 文献 用 于 进一步 学 习 ， 每 章 末 尾 还 提供 了 习题 ， 用 来 练 
习 并 丰富 读者 的 专业 知识 。 

本 书 的 “术语 ” 表 也 进行 了 扩充 ,包含 了 用 于 处 理 和 矩阵 分 析 和 概率 论 问 题 的 方法 学 解释 。 

5. 本 书 所 有 图 和 表格 的 PowerPoint 文件 都 可 以 提供 给 教师 ， 可 到 华章 网 站 (www. 
hzbook. com) FR. 

我 们 尽 了 最 大 努力 来 使 本 书 不 犯错 误 ， 更 重要 的 是 ,我 们 也 尽力 提高 它 的 可 读 性 。 


Simon Haykin 
于 Ancaster, Ontario 
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Hz 


ICA 
Infomax 
Imax 


Imin 


KSOM 
KHA 


LMS 
LR 
LS 


autoregressive 


back propagation through time 
Boltzmann machine 

back propagation 

bits per second 
brain-state-in-a-box 


Blind source (signal) separation 


correlation matrix memory 


cross-validation 
deterministic finite-state automata 


extended Kalman filter 


expectation-maximization 


finite-duration impulse response 


frequency-modulated (signal) 


generalized cross-validation 
generalized Hebbian algorithm 


generalized sidelobe canceler 
hertz 


independent-components analysis 
maximum mutual information 
variant of Infomax 


another variant of Infomax 


kernel self-organizing map 


kernel Hebbian algorithm 


least-mean-square 
likelihood ratio 


Least-squares 


| 缩写 和 符号 


Neural Networks and Learning Machines, 3E 


自 回归 
通过 时 间 的 有 反 向 传播 


Boltzmann 机 
反问 传播 
每 秒 比 特 率 
盒 中 脑 状态 

Bik (FS) 分离 


相关 矩阵 记忆 
交叉 验证 


确定 性 有 限 状态 自动 机 


DEB OR Se Ue i as 
期 望 最 大 化 


有 限时 间 冲 击 响应 
频率 调制 〈 信 和 号 ) 


广义 交叉 验证 
广义 Hebb 算法 
T 3 55 FE YA BR as 


赫兹 


独立 分 量 分 析 
最 大 互信 息 

最 大 互信 息 的 变 体 

最 大 互信 息 的 另 一 个 变 体 


核 自 组 织 上 映射 
核 Hebb 算法 


最 小 均 方 
似 然 比 
最 小 二 乘 
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Least-squares, temporal-difference 
long-term potentiation 

lone-term depression 

Likelihood ratio test 


Maximum a posteriori 
minor-components analysis 
Markov Chain Monte Carlo 
minimum description length 
multiple input-multiple output 
maximum likelihood 
multilayer perceptron 


model reference control 


nonlinear autoregressive moving average 


nonlinear autoregressive with exogenous inputs 


neuro-dynamic programming 
Nadaraya-Watson (estimator) 


Nadaraya- Watson kernel regression 


optimal brain damage 
optimal brain surgeon 


optical character recognition 


probably approximately correct 
principal-components analysis 
Particle Filter 

probability density function 


probability mass function 


quadratic programming 

radial basis function 

recursive least-squares 
regularized least-squares 
recurrent multilayer perceptron 


real-time recurrent learning 


single input-multiple output 
sequential importance resampling 
sequential important sampling 
single input-single output 
signal-to-noise ratio 


self-organizing map 


simple recurrent network (also referred 


to as Elman’s recurrent network) 


最 小 二 乘 ， 时 序 差分 
长 期 增强 

长 期 衰减 
似 然 比 测试 


最 大 后 验 估计 
次 分 量 分 析 
马尔 可 夫 链 蒙特 卡 罗 
最 小 描述 长 度 

多 输入 多 输出 

最 大 似 然 

E ERA AR 

模型 参考 控制 


非 线 性 自 回归 滑动 平均 

其 有 外 部 输入 的 非 线 性 自 回归 
神经 动态 规划 
Nadaraya-Watson (估计 器 ) 
Nadaraya-Watson 核 回 归 


最 优 脑 损伤 
最 优 脑 外 科 
光学 字符 识别 


可 能 近似 正确 
主 分 量 分 析 
PLT UE AN 
概率 密度 函数 
HE E t EE PR 


二 次 规划 

42 [a] SE pA BK 
递归 最 小 二 乘 
正则 最 小 二 乘 
递归 多 层 感知 器 
实时 递归 学 习 


单 输 入 多 输出 
逐次 重要 采样 
单 输入 单 输出 
TAIR E 
自 组 织 映 射 


简单 递归 网 络 (也 称 为 Elman 递归 网 络 ) 
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SVD singular value decomposition 奇异 值 分 解 

SVM support vector machine 支持 问 量 机 

TD temporal difference 时 序 差 分 

TDNN time-delay neural network 时 延 神经 网 络 

TLFN time-lagged feedforward network 时 间 湾 后 前 馈 网 络 

VC Vapnik-Chervononkis (dimension) Vapnik-Chervononkis (H$) 

VLSI very-large-scale integration 超大 规模 集成 

XOR exclusive OR 异 或 

重要 的 符号 

a action 动作 

a'b inner product of vectors a and b 器 量 a 和 hb 的 内 各 

ab’ outer product of vectors a and b 回 量 a 和 hb 的 外 积 

E binomial coefficient 二 项 式 系 数 

AUB unions of A and B A 和 B 的 并 集 

B inverse of temperature Ya RE AY get 

b, bias applied to neuron k HH ATC Rk OA i 

cos(a,b) cosine of the angle’between vectors a and b [ne] # a fl b ERA IZ 

Cyv(usv) probability density function of copula FA Tel AY IR OF E R Be 

D depth of memory WAZ TR BE 

Dilg Kullback-Leibler divergence between 概率 密度 函数 f 和 g 之 间 的 Kullback- 
probability density functions f and g Leibler 散 度 

D adjoint of operator D 算 子 D 的 伴随 矩阵 

E energy function He et PR BY 

E energy of state i in statistical mechanics 统计 力学 中 状态 i 的 能 景 

E statistical expectation operator 统计 期 望 算 子 

(E) average energy 平均 能 量 

exp exponential 指数 

a average squared error, or sum of squared errors 平均 平方 误差 或 平方 误差 和 

Eln) instantaneous value of the sum of squared errors 平方 误差 和 的 瞬时 值 

Sroial total sum of error squares 总 平方 误差 和 

F free energy 自由 能 量 

Fe * subset (network) with minimum empirical 经 验 风 险 最 小 的 子 集 〈 网 络 ) 
risk 

H Hessian (matrix) Hessian % JẸ 

H inverse of Hessian H Hessian 46 H Ay 

i square root of—1, also denoted by j 一 1 的 平方 根 ， 亦 记 作 j 

I identity matrix PA (7 FB RE 

I Fisher’s information matrix Fisher 信息 矩阵 

J mean-square error 均 方 误差 
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r.(jsk3n) 


R 
t 


Jacobian (matrix) 
Square root of matrix P 


transpose of square root of matrix P 


error covariance matrix in Kalman filter theory 


Boltzmann constant 


logarithm 


log-likelihood function of weight vector w 


log-likelihood function of weight vector w 


based on a single example 
controllability matrix 
observability matrix 


discrete time 


probability of state z in statistical mechanics 


transition probability from state i to state j 


stochastic matrix 


conditional probability of error e given that 


the input is drawn from class ®@ 
probability that the visible neurons of a 
Boltzmann machine are in state a,given 
that the network is in its clamped condition 
(i. e. positive phase) 

probability that the visible neurons of a 
Boltzmann machine are in state a, given 
that the network is in its free-running 
condition (i. e. negative phase) 
estimate of autocorrelation function of 
x; (n) and x,(n) 

estimate of cross-correlation function of 
d(n) and z,(n) 

correlation matrix of an input vector 
continuous time 

temperature 

training set (sample) 

operator denoting the trace of a matrix 
variance operator 

Lyapunov function of state vector x 
induced local field or activation potential 
of neuron j 


optimum value of synaptic weight vector 


weight of synapse 7 belonging to neuron k 


optimum weight vector 
equilibrium value of state vector x 


average of state Zi in a “thermal” sense 


Jacobi 4E E 

矩阵 P 的 方 根 

HERE P 的 方 根 的 转 置 

卡尔 受 滤 波 理 论 中 的 误差 协 方差 矩阵 
Boltzmann 常数 

对 数 

权 值 向 量 w 的 对 数 似 然 函 数 

单 样本 的 权 值 向 量 w 的 对 数 似 然 函 数 


可 控 和 矩阵 

可 观察 矩阵 

离散 时 间 

统计 力学 中 状态 i 的 概率 

从 状态 i 到 状态 7 的 转移 概率 
随机 和 矩阵 

从 类 4 中 输入 时 误差 e 的 条 件 概 率 


假设 网 络 处 于 钳制 条 件 〈 即 正 向 阶段 ) 
At, Boltzmann 机 的 可 见 神经 元 状态 
为 a 的 概率 


假设 网 络 处 于 自由 运行 条 件 〈 即 负 向 
Bree) 时 ，Boltzmann 机 的 可 见 神经 
元 状态 为 的 概率 


x; A x, Cn) OA PK BR 





qd(n) 和 x(n) 的 交叉 相关 函数 估计 


输入 癌 量 的 相关 和 矩阵 

连续 时 间 

温度 

训练 集 ( 样 本) 

表示 和 矩阵 迹 的 算 子 

方差 算 子 
HAEE x HY Lyapunov RA% 
神经 元 ; 的 诱导 局 部 域 或 激活 位 势 


突 触 权 值 问 量 的 最 优 值 

属于 神经 元 & 的 突 触 7 的 突 触 权 值 
最 优 权 值 向 量 

状态 向 量 x 的 平衡 值 

“FA” ESC BRAS z; 的 平均 


wwaibbt.com PO00000 





2 estimate of x, signified by the use of a 
caret Chat) 

|z | absolute value (magnitude) of x 

a complex conjugate of x, signified by asterisk 
as superscript 

| x || Euclidean norm (length) of vector x 

X transpose of vector x, signified by the 
superscript T 

z | unit-time delay operator 

Z partition function 

ô; Cn) local gradient of neuron j at time n 

Aw small change applied to weight w 

V gradient operator 

V? Laplacian operator 

Vu gradient of J with respect to w 

V°F divergence of vector F 

7 learning-rate parameter 

K cumulant 

u policy 

0, threshold applied to neuron & Ci. e., 

‘negative of bias 6, ) 

A regularization parameter 

At kth eigenvalue of a square matrix 

gx (+) nonlinear activation function of neuron & 

€E symbol for “belongs to” 

J symbol for “union of” 

N symbol for “intersection of” 

x symbol for convolution 

T superscript symbol for pseudoinverse of 
a matrix 

+ superscript symbol for updated estimate 

开 区 间 和 闭 区 间 


。 变量 r 的 开 区 间 Ca, b) 表示 a<zc<b, 
。 变量 z 的 闭 区 间 La, b] 表示 <c 委 Zz 魏 0。 
。 变量 z 的 半 闭 半 开 区 间 La, © 表示 aLr<b;, BWM, BH zx 的 半 开 半 闭 区 间 Ca, b] 
表示 arb, 
最 小 和 最 大 
。 符号 arg min f(w) Be7n PA fw) 关于 变 元 同 量 w 的 最 小 值 。 
。 符号 arg max f (w) Fos RAR fw) 关于 变 元 向 量 w 的 最 大 值 。 


XV 


x 的 估计 ， 用 加 字符 号 ~”( 幅 符号) 表示 


x 的 绝对 值 (幅度 ) 


四 量 x 的 欧 几 里 得 范 数 (长 度 ) 
回 量 x 的 转 置 ， 用 上 标 T Ra 


FB fiz HF |) REIS FF 
Hl] 3} PRK 


神经 元 7 TENA n 的 局 部 梯度 
AE w 的 微小 改变 

梯度 算 子 

拉 普 拉 斯 算 子 

J RF w 的 梯度 

[i]t F 的 散 度 

学 习 率 参数 

累积 量 

策略 

神经 元 & 的 阔 值 〈 即 偏 置 b 的 负 值 ) 


正则 化 参数 

方 阵 的 第 & 个 特征 值 
神经 元 & 的 非 线 性 激活 函数 
“属于 ”符号 

“并 ”符号 

“ 交 ” 符 号 

卷 积 符号 

和 矩阵 伪 道 的 上 标 符号 


更 新 估计 的 上 标 符 号 
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术 语 | 


Neural Networks and Learning Machines, 3E 


记号 ]: 和 矩阵 分 析 


标量 : 用 小 写 和 斜体 符号 表示 标量 。 
问 量 : 用 小 写 粗 体 符号 表示 向 量 。 
问 量 被 定义 为 一 列 标量 。 因 而 m 维 向 量 x 和 y 的 内 积 可 以 写成 
Yı 
x y 一 Rages TLES | i = > riy: 


其 中 ， 上 标 TAHXRNERRE., HARARE, AMRNA 
| yx=x’y 
和 矩阵: 用 大 写 粗 体 符 号 表示 和 矩阵。 

矩阵 相 习 是 通过 行 和 列 的 相 乘 来 计算 的 。 为 了 说 明 这 一 点 ， 考 虚 mX& OX AKL 
矩阵 Y。 这 两 个 矩阵 的 乘积 产生 一 个 mXL 的 矩阵 

Z= XY 

BAAD, Fe 2Z 的 第 去 个 分 量 是 通过 矩阵 X 的 第 i 行 和 和 矩阵 YY 的 第 7 列 相 乘 而 得 到 
的 ， 这 两 者 都 由 & 个 标量 组 成 。 

一 对 m 维 向 量 x Aly 的 外 积 写成 xy”， 是 一 个 mxm 的 矩阵 。 
记号 三: 概率 论 

随机 变量 : 用 大 写 的 斜体 符号 来 表示 随机 变量 。 随 机 变量 的 样本 值 〈 即 单 次 实现 ) 用 相应 
的 小 写 斜体 符号 来 表示 。 例 如 ， 我 们 用 X 来 表示 随机 向 量 ， 而 用 r RRNA. 

随机 向 量 : 用 大 写 的 粗 体 符号 来 表示 随机 向 量 。 相 似 地 ， 随 机 向 量 的 样本 值 用 相应 的 小 写 
粗 体 符号 来 表示 。 例 如 ,我们 用 XX 来 表示 随机 向 量 ， 而 用 x 来 表示 其 样本 值 。 

随机 变量 X 的 概率 密度 函数 (pdf 由 px (x) 来 表示 ， 这 是 关于 样本 值 x Hw; HP eX 
是 用 来 提示 pdf ÆR FEDE X H. 
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0.1 什么 是 神经 网 络 


自从 认识 到 人 脑 计 算 与 传统 的 数字 计算 机 相 比 是 完全 不 同 的 方式 开始 ， 关 于 人 工 神 经 网 络 
(一 般 称 为 “神经 网 络 ”(neural network)) 的 研究 工作 就 开始 了 。 人 脑 是 一 个 高 度 复 杂 的 、 非 
线性 的 和 并 行 的 计算 机 器 (信息 处 理 系统 )。 人 脑 能 够 组 织 它 的 组 成 成 分 ， 即 神经 元 ， 以 比 今 
天 已 有 的 最 快 的 计算 机 还 要 快 许多 信和 的 速度 进行 特定 的 计算 《如 模式 识别 、 感 知 和 发 动机 控 
制 )。 例 如 ， 考 虑 人 类 视觉 ， 这 是 一 个 信息 人 处理 任务 。 视 觉 系 统 的 功能 是 为 我 们 提供 一 个 关于 
周围 环境 的 表示 ， 并 且 更 重要 的 是 提供 我 们 与 环境 交互 (interact) 所 需 的 信息 。 有 具体 来 说 ， 
完成 一 个 感知 识别 任务 〈 例 如 识别 一 张 被 能 人 陌生 场景 的 熟悉 的 脸 ) 人 脑 大 概 需要 100 一 200 
毫秒 ， 而 一 台 高 效 的 计算 机 却 要 花费 比 人 脑 多 很 多 的 时 间 才 能 完成 一 个 相对 简单 的 任务 。 

再 举 一 个 例子 : 考虑 一 只 蝙 师 的 声呐 。 声 雌 就 是 一 个 活动 回声 定位 系统 。 除 了 提供 目标 
(例如 飞行 的 昆虫 ) 有 多 远 的 信息 外 ， 蝙 蝠 的 声呐 可 以 搜集 目标 的 相对 速度 、 上 有 目标 大 小 、 目 标 
不 同 特征 的 大 小 以 及 它 的 方位 角 和 仰角 的 信息 。 所 有 这 些 信息 都 从 目标 周 声 中 提取 ， 而 所 有 需 
要 的 复杂 神经 计算 只 在 李子 般 大 小 的 脑 中 完成 。 事 实 上 ， 一 只 回声 定位 的 蝙蝠 可 以 灵巧 地 以 很 
高 的 成 功率 追逐 和 捕捉 日 标 ， 这 一 点 足以 使 雷达 或 声呐 工程 师 们 自 叹 弗 如 。 

那么 ， 人 脑 或 蝙蝠 的 脑 是 如 何 做 到 这 一 点 的 呢 ? 脑 在 出 生 的 时 候 就 有 很 复杂 的 构造 和 其 
有 通过 我 们 通常 称 为 的 “经 验 ” 来 建立 它 自己 规则 的 能 力 。 确 实 ， 经验 是 经 过 时 间 积 累 的 ， 
人 脑 在 出 生 后 头 两 年 内 发 生 了 非常 大 的 进化 ( 即 硬 接线 )， 但 是 进化 将 超越 这 个 阶段 并 继续 
进行 。 

一 个 “进化 中 ”的 神经 系统 是 与 可 塑 的 大 脑 间 义 的 。 可 塑性 plasticity〉 人 允许 进化 中 的 神 
经 系统 适应 (adapt) 其 周边 环境 。 可 塑性 似乎 是 人 类 大 脑 中 作为 信息 处 理 单元 的 神经 元 功能 
的 关键 ， 同 样 ， 它 在 人 工 神 经 元 组 成 的 神经 网 络 中 亦 是 如 此 。 最 普通 形式 的 神经 网 络 ， 就 是 对 
人 脑 完成 特定 任务 或 感 兴趣 功能 所 采用 的 方法 进行 建 模 的 机 器 。 网 络 一 般 用 电子 元 件 实现 或 者 
用 软件 在 数字 计算 机 上 模拟。 在 本 书 中 ， 我 们 集中 介绍 一 类 重要 的 神经 网 络 ， 这 类 网 络 通 过 学 
习 过 程 来 实现 有 用 的 计算 。 为 了 获得 良好 性 能 ， 神 经 网 络 使 用 一 个 很 庞大 的 简单 计算 单元 间 的 
相互 连接 ， 这 些 简单 计算 单元 称 为 “神经 元 ”或 者 “处 理 单元 ”"。 据 此 我 们 给 出 将 神经 网 络 看 
作 一 种 自 适 应 机 骨 的 定义 : 

神经 网 络 是 由 简单 处 理 单元 构成 的 大 规模 并 行 分 布 式 处 理 器 ， 天 然 地 具有 存储 经 验 知识 和 
使 之 可 用 的 特性 。 神 经 网 络 在 两 个 方面 与 大 脑 相 似 : 

1. 神经 网 络 是 通过 学 习 过 程 从 外 界 环境 中 获取 知识 的 。 

2. 互 连 神 经 元 的 连接 强度 ， 即 突 触 权 值 ， 用 于 存储 获取 的 知识 。 

用 于 完成 学 习 过 程 的 程序 称 为 学 习 算 法 ,其 功能 是 以 有 序 的 方式 改变 网 络 的 突 触 权 值 以 获 
得 想 要 的 设计 目标 。 

对 突 触 权 值 的 修改 提供 了 神经 网 络 设计 的 传统 方法 。 这 种 方法 和 线性 自 适 应 滤波 器 理论 很 
接近 ， 而 滤波 器 理论 已 经 很 好 地 建立 起 来 并 被 成 功 地 应 用 在 很 多 领域 (Widrow and Stearns, 
1985; Haykin，2002)。 但 是 ， 受 人 脑 的 神经 元 会 死亡 以 及 新 的 突 触 连接 会 生长 的 事实 所 启 
发 ， 神 经 网 络 修改 它 自身 的 拓扑 结构 也 是 可 能 的 。 
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神经 网 络 的 优点 

很 明显 ， 神 经 网 络 的 计算 能 力 可 通过 以 下 两 点 得 到 体现 : 第 一 ， 神 经 网 络 的 大 规模 并 行 分 
AA; 第 二 ， 神 经 网 络 的 学 习 能 力 以 及 由 此 而 来 的 泛 化 能 力 。 泛 化 (generalization〉 是 指 
神经 网 络 对 未 在 训练 CEY) 过 程 中 过 到 的 数据 可 以 得 到 合理 的 输出 。 这 两 种 信息 处 理 能 力 让 
神经 网 络 可 以 找到 一 些 当 前 难以 处 理 的 复杂 〈 大 规模 ) 问题 的 好 的 近似 解 。 但 是 在 实践 中 ， 神 
经 网 络 不 能 单独 做 出 解答 ， 它 们 需要 被 整合 在 一 个 协调 一 臻 的 系统 工程 方法 中 。 有 只 体 来 说 ， 一 个 复 
杂 问 题 往 往 被 分 解 成 若干 个 相对 简单 的 任务 ， 而 神经 网 络 处 理 与 其 能 力 相 符 的 子 任 务 。 但 是 ,我 们 
在 建立 一 个 可 以 模拟 人 脑 的 计算 机 结构 (如 果 可 能 〉 之 前 还 有 很 长 的 路 要 走 ， 认识 这 一 点 是 很 重 
要 的 。 

神经 网 络 具 有 下 列 有 用 的 性 质 和 能 力 : 

1. 非 线性 (nonlinearity): 人 工 神 经 元 可 以 是 线性 或 者 非 线 性 的 。 由 非 线性 神经 元 互相 连 
接 而 成 的 神经 网 络 自 身 是 非 线性 的 ， 并 且 从 某 种 特别 意义 上 来 说 非 线性 是 分 布 于 整个 网 络 中 
的 。 非 线性 是 一 个 非常 重要 的 特性 ， 特 别 是 当 产生 输入 信号 (如 语音 信号 ) 的 内 部 物理 机 制 是 
天 生 非 线性 的 时 候 。 

2. 输入 输出 映射 (input-output mapping): 称 之 为 有 教师 学 习 (learning with a teacher) 
或 监督 学 习 (supervised learning) 的 关于 学 习 的 流行 方法 。 它 使 用 带 标 号 的 训练 样 例 Crain- 
ing example) 或 任务 样 例 (task example) 对 神经 网 络 的 突 触 权 值 进行 修改 。 每 个 样 例 由 一 个 
唯一 的 输入 信号 (input signal) 和 相应 的 期 望 (目标 ) 响应 (desired (target) response) 组 
成 。 从 一 个 训练 集中 随机 选取 一 个 样 例 提供 给 网 络 ， 网 络 就 调整 它 的 突 触 权 值 (自由 参数 )， 
以 最 小 化 期 望 响 应 和 由 输入 信号 以 适当 的 统计 准则 产生 的 网 络 实际 响应 之 间 的 差别 。 使 用 训练 
集中 的 很 多 样 例 来 重复 训练 神经 网 络 ， 直 到 网 络 达 到 对 突 触 权 值 没 有 显著 修正 的 稳定 状态 为 
止 。 先 前 已 经 使 用 过 的 训练 样 例 可 能 还 要 在 训练 期 间 以 不 同 顺序 重复 使 用 。 因 此 对 当前 问题 来 
说 ， 神 经 网 络 是 通过 建立 输入 输出 映射 来 从 样 例 中 学 习 的 。 这 样 的 方法 使 人 想起 了 非 参数 统计 
推断 (nonparametric statistical inference) 的 研究 ， 它 是 非 模 型 估计 统计 处 理 的 一 个 分 支 ， 或 
者 从 生物 学 角度 看 ， 称 为 白板 学 习 (tabula rasa learning, Geman 等 ，1992)。 这 里 使 用 “ 非 参 
数 ” 这 一 术语 表示 的 一 个 事实 是 ， 没 有 对 输入 数据 的 统计 模型 作 任何 先 验 假设 。 比 如， 考虑 一 
个 模式 分 类 (pattern classification) 任务， 这 里 的 要 求 是 把 代表 具体 物体 或 事件 的 输入 信号 分 
类 到 几 个 预先 分 好 的 类 中 去 。 关 于 这 一 问题 的 非 参 数 方法 中 ， 要 求 利用 样本 集 “ 佑 计 ” 输 入 信 
号 空间 中 模式 分 类 任务 的 任意 决策 边界 ， 并 旦 不 使 用 概率 分 布 模型 。 而 监督 学 习 方 法 也 隐 含 了 
类 似 的 观点 ， 这 就 提示 在 神经 网 络 的 输入 输出 映射 和 非 参 数 统计 推断 之 间 存 在 相近 的 类 上 比 。 

3， 自 适应 性 (adaptivity): 神经 网 络 具 有 调整 自身 突 触 权 值 以 适应 外 界 环境 变化 的 固有 能 
力 。 特 别 是 ， 一 个 在 特定 运行 环境 下 接受 训练 的 神经 网 络 ， 在 环境 条 件 变化 不 大 的 时 候 可 以 很 
容易 地 进行 重新 训练 。 而 且 ， 当 它 在 一 个 不 稳定 (nonstationary) 环境 〈 即 它 的 统计 特性 随时 
间 变 化 ) 中 运行 时 ， 可 以 设计 神经 网 络 使 得 其 罕 触 权 值 随时 间 实 时 变化 。 用 于 模式 分 类 、 信 和 号 
处 理 和 控制 的 神经 网 络 与 它 的 自 适 应 能 力 相 看 合 ， 就 可 以 变 成 能 进行 自 适应 模式 分 类 、 自 适应 
信和 号 处 理 和 自 适 应 控制 的 有 效 工 具 。 作 为 一 般 规 则 ， 在 保证 系统 保持 稳定 时 ， 一 个 系统 的 目 运 
应 性 越 好 ， 它 被 要 求 在 一 个 不 稳定 环境 下 运行 时 其 性 能 就 越 具 和 鲁 棒 性 。 但 是 ， 需 要 强调 的 是 ， 
自 适 应 性 不 一 定 总 能 导致 鲁 棒 性 ， 实 际 还 可 能 导致 相反 结果 。 比 如 ， 一 个 短 时 常数 自 适 应 系统 
可 能 变化 过 快 ， 以 至 于 对 干扰 扰动 有 所 反应 ， 从 而 引起 系统 性 能 的 急剧 恶化 。 为 了 获得 自 适应 
性 的 最 大 好 处 ， 系 统 的 主要 时 间 常 数 应 该 长 到 可 以 忽略 干扰 扰动 ， 却 依然 足够 短 以 能 反应 环境 
的 重要 变化 。 这 一 问题 通常 被 称 为 稳定 性 -可 塑性 困境 (Grossberg，1988)。 

4, 证 据 响 应 (evidential response)， 在 模式 分 类 问题 中 ， 神经 网 络 可 以 设计 成 不 仅 提 供 选 
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择 哪 一 个 特定 模式 的 信息 ， 还 提供 关于 决策 的 置信 和 度 信 息 。 后 者 可 以 用 来 拒 判 那些 可 能 出 现 的 
过 于 模糊 的 模式 ， 从 而 进一步 改善 网 络 的 分 类 性 能 。 

5. 上 下文 信息 (contextual information): 神经 网 络 的 特定 结构 和 激发 状态 代表 知识 。 网 
络 中 每 一 个 神经 元 都 受 网 络 中 所 有 其 他 神经 元 全 局 活动 的 潜在 影响 。 因 此 ， 神 经 网 络 将 很 自然 
地 能 够 处 理 上 下 文 信息 、 

6. 容错 性 fault tolerance); 一 个 以 硬件 形式 实现 的 神经 网 络 具有 天 生 的 容错 性 ， 或 者 说 
具有 和 鲁 棒 计 算 的 能 力 ， 在 这 种 意义 上 其 性 能 在 不 利 的 运行 条 件 下 是 逐渐 下 降 的 。 比 如 ， 一 个 神 
经 元 或 它 的 连接 损坏 了 ， 存 储 模式 的 记忆 性 在 质量 上 会 被 削弱 。 但 是 ， 由 于 网 络 信息 存储 的 分 
布 特性 ， 在 网 络 的 总 体 响 应 严重 恶化 之 前 这 种 损坏 是 分 散 的 。 因 此 ， 原 则 上 ， 神 经 网 络 从 性 能 
上 显示 了 一 个 缓慢 恶化 的 过 程 而 不 是 灾难 性 的 失败 。 有 一 些 关 于 和 鲁 棒 性 计算 的 经 验证 据 ， 但 通 
常 它 是 不 可 控 的 。 为 了 确保 网 络 事实 上 的 容错 性 ， 有 必要 在 设计 训练 网 络 的 算法 时 采用 正确 的 
度量 (Kerlirzin and Vallet, 1993), 

7. VLSI 实现 (VLSI impIementability) ， 神 经 网 络 的 大 规模 并 行 性 使 它 具 有 快速 处 理 某 些 
任务 的 潜在 能 力 。 这 一 特性 使 得 神经 网 络 很 适合 使 用 超大 规模 集成 (very-large-scale-integrat- 
ed, VLSD 技术 来 实现 。VLSI 的 一 个 特殊 优点 是 可 以 提供 一 个 以 高 度 分 层 的 方式 来 捕捉 真 实 
复杂 行为 的 方法 (Mead, 1989). 

8. 分 析 和 设计 的 一 致 性 : 基本 上 ， 神 经 网 络 作为 信息 处 理 器 具有 通用 性 。 我 们 这 样 说 是 
因为 涉及 神经 网 络 应 用 的 所 有 领域 都 使 用 同样 的 记号 。 这 一 特征 以 不 同 的 方式 表现 出 来 : 

。 神经 元 ， 不 管 形式 如 何 ， 在 所 有 的 神经 网 络 中 都 代表 一 种 相同 成 分 。 

。 这 种 共性 使 得 在 不 同 应 用 中 的 神经 网 络 共 说 相 同 的 理论 和 学 习 算 法 成 为 可 能 。 

。 模块 化 网 络 可 以 用 模块 的 无 颖 集成 来 实现 。 

9. 神经 生物 类 比 : 神经 网 络 的 设计 是 由 与 人 脑 的 类 比 引发 的 ， 人 脑 是 一 个 容错 的 并 行 处 
理 的 实例 ， 说 明 这 种 处 理 不 仅 在 物理 上 是 可 实现 的 ， 而 且 还 是 快速 、 高 效 的 。 神 经 生物 学 家 将 
(ATL) 神经 网 络 看 作 是 一 个 解释 神经 生物 现象 的 研究 工具 。 另 一 方面 ， 工 程 师 对 神经 生物 学 
的 关注 在 于 将 其 作为 解决 复杂 问题 的 新 思路 ， 这 些 问题 比 基 于 常规 的 硬件 线路 设计 技术 所 能 解 
决 的 问题 更 复杂 。 下 面 两 个 例子 说 明了 这 两 种 观点 : 

。 在 Anastasio (1993) 中 ， 将 前 庭 视 觉 反射 《vestibulo-ocular reflex, VOR) 的 线性 系 

统 模型 和 基于 在 0. 6 节 描 述 及 第 15 章 中 详细 讲述 的 递归 网 络 的 神经 网 络 模型 进行 了 比 
较 。 前 庭 视觉 反射 是 腿 球 运 动 系统 的 一 部 分 ， 其 作用 是 让 眼球 向 与 头 转动 方向 相反 的 
方向 运动 ， 以 维持 视觉 〈 视 网 膜 ) 图 像 的 稳定 性 。VOR 由 前 庭 核酸 的 前 端 神经 元 调 
节 ， 前 端 神经 元 从 前 庭 感 知 神经 元 中 接受 头 部 旋转 信息 并 加 以 处 理 ， 将 结果 告知 眼球 
肌肉 的 动作 神经 元 。 输 入 〈 头 部 旋转 信息 ) 和 输出 (眼球 旋转 ) 可 以 精确 确定 ， 因 此 
VOR 很 适合 建 模 。 另 外 ， 它 是 比较 简单 的 反射 作用 ， 并 且 其 组 成 神经 元 的 神经 生理 学 
的 内 容 已 经 被 很 好 地 讲述 过 了 。 在 三 种 神经 类 型 中 ， 前 端 神经 元 《反射 内 层 神经 元 ) 
在 前 庭 核酸 中 是 最 复杂 、 也 是 最 引 人 注 意 的 。VOR 以 前 已 经 用 集 抉 线性 系统 摘 述 匿 和 
控制 理论 模型 化 了 。 这 些 模 型 对 解释 VOR 的 整体 性 质 有 一 些 作 用 ， 但 是 对 了 解 其 组 
成 神经 元 特性 却 用 处 不 大 。 这 种 情况 通过 建 模 神经 网 络 已 经 被 大 大 改善 了 。VOR 的 递 
归 网 络 模 型 (使 用 第 15 章 描述 的 实时 递归 学 习 算 法 设计 ) 能 通过 调节 VOR 的 神经 元 
(特别 是 前 庭 核酸 神经 元 ) 重 现 和 解释 处 理 信号 时 的 静态 、 动 态 、 非 线性 和 分 布 式 等 多 
方面 特性 。 

。 视网膜 不 同 于 人 脑 的 其 他 任何 部 分 ， 是 我 们 开始 将 外 部 环境 的 物理 图 像 投 射 到 一 行 接 

收 器 上 形成 的 视觉 表示 和 第 一 个 神经 图 像 相 结合 的 地 方 。 它 是 眼球 后 部 的 神经 组 织 j 
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ke. 其 功能 是 将 光学 图 像 转换 成 神经 图 像 并 沿 光 神经 传输 给 大 量 的 视觉 中 枢 以 便 进 一 
步 处 理 。 这 是 一 个 复 洒 的 工作 ， 可 以 从 视网膜 的 突 触 组 织 得 到 证 明 。 在 痊 椎 动物 的 视 
网 膜 中 ， 光 图 像 转 化 成 神经 图 像 的 过 程 由 三 个 阶段 组 成 (Sterling，1990)。 

1) 受 体 神经 元 层 的 图 像 传 导 。 

2) 结果 信号 (产生 于 对 光 刺 激 的 反应 ) 由 化 学 性 突 触 传 输 给 一 层 双 极 细 胞 。 

3) 同样 ， 由 化 学 性 突 触 把 结果 信号 传 给 神经 三 细胞 的 输出 神经 元 。 

在 两 个 罕 触 阶段 〈 即 从 受 体 到 双 极 细胞 和 从 双 极 细胞 到 神经 节 细 胞 )， 有 专门 侧 向 连接 的 
神经 元 ， 分 别称 为 水 平 细胞 的 神经 元 和 无 长 突 细胞 的 神经 元 。 这 些 神经 元 的 工作 是 修改 罕 触 层 
之 间 的 传输 。 田 外 还 有 称 为 中 闪 网 状 细胞 的 离心 元 素 ， 它 们 的 工作 是 将 信号 从 内 部 突 触 层 传 到 
外 部 突 触 层 。 一 些 研 究 人 员 已 经 建立 了 模拟 视网膜 结构 的 电子 芯片 。 这 些 电 子 芯 片 称 为 神经 形 
Æ (neuromorphic) 集成 电路 ， 这 个 术语 由 Mead (1989) 所 创造 。 神 经 形态 的 图 像 传 感 絮 是 
由 一 排 感光 器 与 每 个 图 形 元 素 〈 像 素 ) 的 模拟 回路 结合 而 成 的 。 它 能 模拟 视网膜 适应 局 部 的 亮 
度 变 化 、 检 测 边 缘 以 及 检测 运动 。 神 经 生物 学 模拟 《例如 神经 形态 集成 电路 ) 有 为 一 个 重要 的 
应 用 : 它 提供 了 一 种 希望 和 信念 ， 并 在 一 定 程度 上 提供 一 种 存在 性 证 明 ， 即 对 神经 生物 结构 的 
物理 上 的 了 解 对 电子 学 工艺 和 超大 规模 集成 电路 技术 有 多 方面 的 影 啊 。 

有 了 神经 生物 学 的 启示 ， 我 们 对 人 脑 及 其 组 织 的 结构 层次 作 简 要 的 考察 看 来 是 合适 的 。 


0.2 人 类 大 脑 


人 的 神经 系统 可 看 作 三 阶段 系统 ， 如 辐 图 1 (Arbib，1987) 所 描绘 的 框图 所 了 未。 系统 的 
中 央 是 人 脑 ， 由 神经 网 络 表 示 ， 它 持续 地 接收 信息 ， 感 知 它 并 做 出 适当 的 决定 。 图 中 有 两 组 第 
头 ， 从 左 到 右 的 第 头 表 示 携 带 信 息 的 信号 通过 系统 向 询 传输 ， 从 石 到 左 的 篆 头 表示 系统 中 的 反 
馈 。 感 受 器 把 来 自 人 体 或 外 界 环境 的 刺激 转换 成 电 冲 击 ， 对 神经 网 络 (大 脑 ) 传送 信息 。 神 经 
网 络 的 效应 器 会 将 神经 网 络 产生 的 电 冲 击 转换 为 可 识别 的 响应 从 而 作为 系统 的 输出 。 


Cosco 


图 1 神经 系统 的 框图 


在 Ramon y Cajal (1911) 的 开创 性 工作 中 ， 引 人 神经 元 作为 人 脑 结构 成 分 的 思想 ， 从 而 
使 得 人 们 理解 人 脑 的 努力 变 得 简单 多 了 。 通 常 ， 神 经 元 比 硅 逻 辑 门 要 慢 5 到 6 个 数量 级 ; EE 
辑 门 中 的 事件 发 生 在 纳 秒 级 ,而 在 神经 中 的 事件 发 生 在 毫秒 级 。 但 是 人 脑 是 由 运行 速度 相对 较 
慢 的 神经 元 所 构成 的 ， 神 经 元 (神经 细胞 ) 的 数 日 非常 惊人 ， 而 且 它 们 之 间 具 有 大 量 的 互 连 。 
据 估 计 人 的 大 脑 皮层 中 有 大 约 100 亿 个 神经 元 和 大 约 60 万 亿 个 突 触 或 连接 (Shepherd and 
Koch, 1990), 。 这 些 数 据说 明 大 脑 拥 有 非常 高 效 的 结构 。 具 体 来 说 ， 脑 的 能 量 效率 为 每 秒 每 个 
操作 大 约 为 10 焦耳 ， 而 今天 所 用 的 最 好 计算 机 的 相应 值 则 远 远大 于 人 脑 。 

突 触 (synapse) 或 称 之 为 神经 末梢 (nerve ending)， 是 调节 神经 元 之 间 相 互 作 用 的 基本 
结构 和 功能 单位 。 最 普通 的 一 类 突 触 是 化 学 突 触 ， 它 是 这 样 运行 的 ， 前 突 触 过 程 释放 发 送 器 物 
质 ， 扩 散 到 神经 元 之 间 的 突 触 连接 ， 然 后 作用 于 后 突 触 过 程 。 这 样 突 触 就 完成 了 突 触 前 问 的 电 
言 号 向 化 学 信号 的 转换 ， 然 后 转换 回 突 触 后 端 电 信号 (Shepherd and Koch，1990)。 用 电学 术 
语 来 说 ， 这 样 的 元 素 称 为 非 互 北 的 两 端口 设备 。 在 传统 的 神经 组 织 描述 中 ， 仅 假设 突 触 是 一 个 
简单 的 连接 ， 能 施加 兴奋 或 抑制 ， 但 不 同时 作用 在 接受 神经 元 。 

我 们 曾 提 到 过 ， 可 塑性 允许 进化 神经 系统 以 适应 周边 环境 (Eggermont，1990; Church- 
land and Sejnowski，1992)。 在 成 年 人 的 大 脑 中 ， 可 塑性 可 以 解释 两 个 机 能 : 创建 神经 元 间 的 
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第 0 章 F 言 ， 


新 连接 以 及 修改 已 有 的 连接 。 轴 突 〈 即 传导 线路 ) 和 树 突 〈 即 接受 区 域 ) 组 成 两 种 细胞 长 纤 
维 ， 它 们 在 形态 上 互相 区 别 。 轴 突 有 光 请 的 表面 、 较 少 的 分 支 、 比 较 长 ， 而 树 帘 正 相 反 (之 所 
以 这 样 称呼 是 因为 它 和 树 相 似 )， 它 有 不 规则 的 表面 和 更 多 的 分 支 (Freeman，1975)。 脑 中 的 
不 同 部 分 有 很 多 种 形状 和 大 小 不 同 的 神经 元 。 图 2 是 一 种 锥 形 细胞 ， 它 在 大 脑 上 及 层 中 最 常见 。 
与 其 他 许多 神经 元 一 样 ， 它 从 树 突 刺 接收 大 部 分 输入 信号 ; 可 以 从 图 2 中 看 到 树 突 片 段 的 细节 。 
锥 形 细 胞 可 以 有 一 万 个 或 更 多 的 突 触 与 其 他 细胞 连接 ， 它 可 以 投射 到 数 以 千 计 的 目标 细胞 。 


ee 


poe 





顶 树 突 | 
树 突 片断 
入 细胞 体 
下 | ws 
轴 突 
突 触 端 


图 2 锥 形 细 胞 


大 多 数 神经 元 把 它们 的 输出 转化 成 一 系列 简短 的 电压 脉冲 编码 。 这 些 脉 冲 ， 一 般 称 为 动作 
电位 或 尖峰 ;， 产 生 于 神经 元 细胞 体 或 其 附近 并 以 恒定 的 电压 和 振幅 穿越 个 体 神经 元 。 使 用 神 
经 元 间 的 动作 电位 通信 和 是 由 轴 突 的 物理 性 质 决 定 的 。 轴 突 很 长 很 细 ， 有 很 高 的 电阻 和 非常 大 的 
电容 ， 这 两 者 分 布 于 轴 突 中 。 因 此 可 以 用 RC 传输 线路 来 建 模 ， 用 “电缆 方程 ”这 个 术语 来 摘 
述 轴 突 中 的 信号 传播 。 对 传播 机 制 的 分 析 揭 示 了 电压 在 传输 中 随 距 离 旦 指数 衰减 ， 在 到 达 故 一 
端 时 会 变 得 很 小 。 动 作 电 位 提供 了 克服 这 个 问题 的 方法 (Anderson，1995)。 

在 人 脑 中 ， 有 小 规模 和 大 规模 解剖 组 织 之 分 ， 在 底层 和 高 层 会 发 生 不 同 的 机 能 。 图 3 显示 
了 脑 组 织 各 种 级 别 交 织 的 层次 结构 ， 这 已 经 在 广泛 的 关于 脑 局 部 区 域 的 分 析 工 作 中 显现 出 来 
(Shepherd and Koch, 1990; Churchland and Sejnowski，1992)。 突 触 表示 最 基本 的 层次 ,其 
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0 ' 第 0 章 导 言 


活动 依赖 于 分 子 和 离子 。 其 后 的 层次 有 神经 微 电 路 、 树 突 树 以 及 神经 元 。 神 经 微 电 路 指 突 触 集 
成 ， 组 织 成 可 以 产生 所 需 的 功能 操作 的 连接 模式 。 它 就 像 一 个 由 晶 
体 管 集成 的 硅 片 ， 最 小 的 尺寸 用 微米 Cum) 度量 ， 最 快 的 操作 速 
BERR (mm) 上 度量。 神经 微 电 路 被 组 织 成 属于 神经 元 个 体 的 树 
突 树 的 树 突 子 单元 。 整 个 神经 元 大 约 为 100um KN, ALA ILA 
突 子 单元 。 局 部 电路 (大约 Imm 大 小 ) 处 在 其 次 的 复杂 性 水 平 ， 
由 具有 相似 或 不 同性 质 的 神经 元 组 成 ， 这 些 神 经 元 集成 完成 脑 局 部 
区 域 的 特征 操作 。 接 下 来 是 区 域 则 电路 ， 由 通路 、 柱 子 和 局 部 解剖 
图 组 成 ， 牵 涉 脑 中 不 同 部 分 的 多 个 区 域 。 

局 部 解剖 图 (topographic map) #% 2H 24 it FA JE na E Hay A EY A 
AB. ENAKE HERRERA. MME PR. LEP 
觉 、 听 觉 和 人 体 触 党 区 以 层 邻 接 的 方式 放置 ， 使 得 空间 中 相应 点 的 
刺激 处 于 各 层 的 下 面 或 上 面 。 图 4 表示 由 Brodmann (Brodal, 钊 经 微 电 路 
1981) 做 出 的 大 脑 皮 层 的 细胞 结构 图 。 图 中 清晰 表明 不 同 的 感知 输 
入 运动、 触觉 、 视 觉 、 听 觉 等 ) 被 有 序 地 映射 到 大 脑 皮 层 的 相应 
位 置 。 在 复杂 性 的 最 后 一 级 ， 局 部 解剖 图 和 其 他 的 区 域 间 电路 成 为 
中 央 神 经 系统 传递 特定 行为 的 媒介 。 

认识 到 在 这 里 描绘 的 结构 分 层 组 织 是 大 脑 的 独 有 特征 非常 重 图 大 腑 的 分 层 结构 组 织 
要 。 我 们 在 数字 计算 机 中 找 不 到 这 种 结构 ， 在 人 工 神经 网 络 中 也 无 
法 近似 地 重 构 它 们 。 但 是 ， 我 们 仍 在 向 图 3 中 描述 的 类 似 的 分 级 计算 层 状 结构 缓慢 推进 。 用 以 
构造 神经 网 络 的 人 工 神经 元 和 人 脑 中 的 神经 元 相 比 确实 比较 初级 ， 我 们 目前 能 设计 的 网 络 和 人 
脑 中 初级 的 局 部 电路 和 区 域 间 电 路 相当 ， 人 但是， 真正 令 人 满意 的 是 我 们 已 经 在 许多 前 沿 有 了 显 
著 进步 。 以 神经 生物 类 比 作为 灵感 的 源泉 ， 加 上 我 们 具有 的 理论 和 技术 工具 等 财富 ， 逐 步 地 ， 
我 们 对 人 工 神 经 网 络 及 其 应 用 的 理解 一 定 会 更 加 深入 和 宽广 。 


中 枢 神 经 系统 
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图 4 大 脑 皮 层 细 胞 结构 图 。 不 同 区 域 由 它们 的 层 厚度 及 其 内 部 细胞 类 型 标示 。 一 些 最 重 
要 的 感知 区 域 如 下 。 运 动 皮层 : 运动 区 ， 区 域 4; 前 运动 区 ， 区 域 6; 前 端 服 球 区 ， 
区 域 8。 人 体 触觉 皮层 : 区域 3，1，2。 视 觉 皮层 ， 区 域 17，18，19。 上 听觉 皮层 : 区 
域 41，42 (摘自 A. Brodal, 1981; 经 Oxford University Press 许可 ) 
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0.3 神经 元 模型 


神经 元 是 神经 网 络 操作 的 基本 信息 处 理 单位 。 图 5 给 出 了 神经 元 的 模型 ， 它 是 后 续 章 节 中 将 
要 探讨 的 设计 (人工) 神经 网 络 大 家 庭 的 基础 。 我 们 在 这 里 给 出 神经 元 模型 的 三 种 基本 元 素 ; 

L 突 甬 或 连接 链 集 ， 每 一 个 都 由 其 权 值 或 者 强度 作为 特征 。 具 体 来 说 ， 在 连 到 神经 元 的 突 
触 j 上 的 输入 信号 z 被 乘 以 的 突 触 权 值 wy。 注意 突 触 权 值 wy 下 标的 写法 很 重要 。 第 一 个 下 标 
指正 在 研究 的 这 个 神经 元 ， 第 二 个 下 标 指 权 值 所 在 的 突 触 的 输入 端 。 和 人 脑 中 的 突 触 不 一 样 ， 人 
工 神经 元 的 突 触 权 值 有 一 个 范围 ， 可 以 取 正 值 也 可 以 取 负 值 。 

2. 加 法 器 ， 用 于 求 输入 信号 被 神经 元 的 相应 突 触 加 权 的 和 。 这 个 操作 构成 一 个 线性 组 合 器 。 

3. 激活 函数 ， 用 来 限制 神经 元 输出 振幅 。 由 于 它 将 输出 信号 压制 (限制 ， 到 允许 范围 之 
内 的 一 定 值 ， 故 而 激活 函数 也 称 为 压制 函数 。 通 常 ， 一 个 神经 元 输出 的 正常 幅度 范围 可 写成 单 
位 闭 区 间 [0，1] 或 者 另 一 种 区 间 [—1, +11. 








突 触 权 值 


图 5 神经 元 的 非 线 性 模型 ,标记 为 第 个 神经 元 


图 5 的 神经 元 模型 也 包括 一 个 外 部 偏 置 (bias)， 记 为 b:。 偏 置 b 的 作用 是 根据 其 为 正 或 
为 负 ， 相 应 地 增加 或 降低 激活 函数 的 网 络 输入 。 
用 数学 术语 来 表示 ， 我 们 可 以 用 如 下 一 对 方程 描述 图 5 中 的 神经 元 &: 


Ur 一 X wet; (1) 
Yk 一 中 (zs 十 bi) (2) 
其 中 T1929 stp 是 输入 信号 ， Wel 9 TU 7°? 9 Wim 是 神经 诱导 局 


元 & ERMI., u GAER 5 中 标 出 ) 是 输入 信和 号 

的 线性 组 合 器 的 输出 ，b 为 偏 置 ,激活 函数 为 GC), 

ys 是 神经 元 输出 信号 。 偏 置 b 的 作用 是 对 图 5 模型 中 的 

线性 组 合 器 的 输出 us 作 仿 射 变 换 (affine transforma- 
tion)， 如 下 所 示 : 








ve = ty th (3) 

特别 地 ， 根 据 偏 置 六 取 正 或 取 人 负 ， 神 经 元 上 的 诱导 

局 部 域 (induced local field) 或 激活 电位 (activation po- 

tential) v: 和 线性 组 合 器 输出 u 的 关系 如 图 6 所 示 。 以 

后 我 们 将 把 “诱导 局 部 域 ” 和 “激活 电位 ”这 两 个 术语 

交替 使 用 。 注意 到 由 于 这 个 仿 射 变换 的 作用 ， v, 与 ws 的 图 6 偏 置 产 生 的 仿 射 变换 ， 注 意 
RIBAS HAT BUR us =0 时 um = br 


Sey thu, 
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了 中 


偏 置 5 是 人 工 神 经 元 & 的 外 部 参数 。 我 们 可 以 像 在 式 (2) 中 一 样 考虑 它 。 同 样 ， 可 以 结合 
式 (1) 和 和 式 (3) 得 到 如 下 公式 : 


Ug = es (4) 
ye = CC uy) (5) 
在 式 (4) 中 ， 我 们 加 上 一 个 新 的 突 触 ， 其 输入 是 
Xo =+ 1 (6) 
权 值 是 
Wr = b; (7) 


因此 得 到 了 神经 元 的 新 模型 ， 如 图 7 所 示 。 在 这 个 图 中 ， 偏 置 起 两 种 作用 : C) 添加 新 的 固 
定 输 入 十 1; 2) 添加 新 的 等 于 偏 置 b 的 突 触 权 值 。 虽 然 形 式 上 图 5 和 图 7 的 模型 不 相同 ， 但 
在 数学 上 它们 是 等 价 的 。 


固定 输入 =+ lq 


an tly, 





求 和 结 点 





突 触 权 值 
(包含 偏 置 ) 


图 7 神经 元 的 为 一 个 非 线 性 模型 ，ww 代 替 了 偏 置 b 


激活 函数 的 类 型 
激活 函数 ， 记 为 p(v)， 通 过 诱导 局 部 域 v 定义 神 经 元 输出 。 这 里 我 们 给 出 两 种 基本 的 激 
ira PEI N : 
1. Ba BH. MR RA 8a 所 示 ， 可 写 为 : 
1 WR v0 
= , mB uv <0 
在 工程 文献 中 ， 这 种 函数 一 般 称 为 Heaviside 函数 。 相 应 地 ， 在 神经 元 & LPAI, 
其 输出 可 表示 为 


(8) 


1 dR vu, = 0 


Ve | (9) 


其 中 vu, 是 神经 元 的 诱导 局 部 域 ， 即 
Up = yo + b, (10) 


在 神经 计算 中 ， 这 样 的 神经 元 在 文献 中 称 为 McCulloch-Pitts 模型 ， 以 纪念 McCulloch and 
Pitts (1943) 的 开拓 性 工作 。 在 模型 中 ， 如 果 神 经 元 的 诱导 局 部 域 非 负 ， 则 输出 为 1， 和 否则 为 
0。 这 描述 了 McCulloch-Pitts 模型 的 辟 有 或 者 恬 无 特性 Call-or-none property). 

2. sigmoid 函数 。 此 函数 的 图 形 是 “S” 形 的 ， 在 构造 人 工 神经 网 络 中 是 最 遂 用 的 激活 函 
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BERET RS AY pm. TEAR EASE ARE OW IB) OE A. sigmoid pa RH) — A 
例子 是 logistic AA’, EXU TF: 
: 1 
1+ exp(— av) 
其 中 a 是 sigmoid 图 数 的 倾斜 参数 。 修 改 参 数 & 就 可 以 改变 倾斜 程度 ， 如 图 8b 所 示 。 实 际 
上 ， 在 原点 的 斜 度 等 于 a/4。 在 极限 情况 下 ， 倾 斜 参 数 趋 于 无 穷 ，sigmoid WER T fay A A e 
值 函 数 。 阐 值 函 数 仅 取 值 0 或 1， 而 sigmoid 的 值 域 是 0 到 1 的 连续 区 间 。 还 要 注意 到 sig- 
moid 函数 是 可 微分 的 ， 而 阀 值 函数 不 是 。( 如 第 4 章 所 述 ， 可 微 性 是 神经 网 络 理论 的 一 个 重要 
特征 。) 


glv) = (11) 






g (v) ; 

3 -15 1 5 0 05 1 15 2 10 -8 6 -4 2 0 2 4 6 8 10 
i U 
a) b) 


图 8 a) BERG O 具有 不 同 倾斜 参数 a 的 sigmoid 函数 


在 式 (8) 、(]11) 中 定义 的 激活 函数 的 值 域 是 0 到 十 1。 有 时 也 期 望 激 活 也 数 的 值 域 是 一 1 到 
十 1， 这 种 情况 下 激活 函数 是 诱导 局 部 域 的 奇 函 数 。 具 体 来 说 ， 阀 值 函数 (8) 的 另 一 种 形式 十 


1 wR vu > 0 
olv) | que uv = 0 (12) 
一 1 mAV<O 
通常 称 之 为 signum 函数 。 为 了 与 sigmoid 图 数 相对 应 ， 我 们 可 以 使 用 双 曲 正切 函数 
plv) = tanh(v) C13) 


如 式 (13) 所 示 ， 它 允许 sigmoid 型 的 激活 函数 取 负 值 ， 这 有 时 候 会 产生 比 式 (11) 的 logistic K 
BE BE UF YY “SE Das A fit. 
神经 元 的 统计 模型 
图 7 的 神经 元 模型 是 确定 性 的 ， 它 的 输入 输出 行为 对 所 有 的 输入 精确 定义 。 但 在 一 些 神经 
网 络 的 应 用 中 ， 基 于 随机 神经 模型 的 分 析 更 符合 需要 。 使 用 一 些 解析 处 理 方法 , McCulloch- 
Pitts 模型 的 激活 函数 用 概率 分 布 来 实现 。 具 体 来 说 ,一 个 神经 元 允许 有 两 个 可 能 的 状态 值 十 1 
或 一 1。 一 个 神经 元 激发 〈 即 它 的 状态 开关 从 “ 关 ” 到 “ 开 ”) 是 随机 决定 的 。 用 x 表示 神经 元 
的 状态 ，P(v) 表 示 激 发 的 概率 ， 其 中 wv 是 诱导 局 部 域 。 我 们 可 以 设 定 
+1 概率 为 P) 
r= (14) 
一 ] 概率 为 1 一 Pl(v) 
一 个 标准 选择 是 sigmoid 型 的 函数 


l 
Pv) =e 1+ exp(— v/T) (15) 
其 中 工 是 伪 温 度 (pseudotemperature). 用 来 控制 激发 中 的 噪声 水 平 邑 不 确定 性 《little， 
1974), 但 是 ， 不 管 神经 网 络 是 生物 的 或 人 工 的 ，T 都 不 是 神经 网 络 的 物理 温度 ， 认 识 到 这 一 
点 很 重要 。 进 一 步 ， 正 如 所 说 明 的 一 样 ， 我 们 仅仅 将 T 看 作 是 一 个 控制 表示 突 触 噪声 效果 的 
热 波动 参数 。 注 意 当 工 趋 于 0 时 ， 式 (14) 和 式 (15) 所 描述 的 随机 神经 元 就 变 为 无 噪声 《〈 即 确 
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定性 ) ÉR, th tHE McCulloch-Pitts 模型 。 
04 被 看 作 有 向 图 的 神经 网 络 


图 5 或 图 7 的 方 框 图 提供 了 构成 人 工 神经 元 模型 各 个 要 素 的 功能 描述 。 我 们 可 以 在 不 牺牲 
模型 功能 细节 的 条 件 下 用 信号 流 图 来 简化 模型 外 观 。Mason (1953, 1956) 开发 了 线性 网 络 的 
一 套 信号 流 图 ， 并 带 有 定义 好 的 规则 。 神 经 元 的 非 线 性 限制 了 它们 在 神经 网 络 中 的 应 用 范围 。 
不 过 ， 信 和 号 流 图 在 描述 神经 网 络 信号 流 时 为 我 们 提供 了 简洁 的 方法 ， 我 们 在 本 刷 进 行 讨论 。 

信号 流 图 是 一 个 由 在 一 些 特定 的 称 为 节点 的 点 之 间 相 连 的 有 向 连接 (分支 ) 组 成 的 网 络 。 
一 个 些 现 的 节点 77 有 一 个 相应 的 节点 信号 xz;。 一 个 典型 的 有 问 连 接 从 市 点 7 了 了 开始， 到 上 市 后 结 
束 。 它 有 相应 的 传递 函数 或 传递 系数 以 确定 节点 有 的 信号 ys 依赖 于 节点 7 的 信号 zi 的 方式 。 
图 形 中 各 部 分 的 信号 流动 遵循 三 条 基本 规则 。 

规则 1 信号 仅仅 活着 定义 好 的 箭头 方向 在 连接 上 流动 。 

两 种 不 同类 型 的 连接 可 以 区 别 开 来 : 

。 突 触 连接 ， 它 的 行为 由 线性 输入 输出 关系 决定 。 具 体 来 说 ， 如 图 9a 所 示 ， 节 点 信号 ya 

由 节点 信和 号 x; Fe LA R ALL wi 产生 。 

。 激活 连接 ， 它 的 行为 一 般 由 非 线性 输入 输出 关系 决定 。 如 图 9b 所 示 ， 其 中 oC +) AA 

规则 2 节点 信号 等 于 经 由 连接 进入 的 有 关节 点 的 所 有 信号 的 代数 和 。 

这 个 规则 通过 如 图 9c 所 示 的 突 触 会 聚 或 扇 入 的 情形 来 说 明 ，。 

规则 3 节点 信号 沿 每 个 外 向 连接 向 外 传递 ， 此 时 传递 的 信号 完全 独立 于 外 向 连接 的 传递 函数 ， 

第 三 个 规则 通过 如 图 9d 所 示 的 罕 触 散发 或 而 出 的 情形 来 说 明 。 

比如 ， 利 用 这 些 规则 ， 我 们 可 以 制作 出 对 应 于 图 7 的 信号 流 图 10 来 作为 神经 元 模型 。 可 
以 看 出 ， 图 10 要 比 图 7 的 形式 更 简单 ， 但 是 它 包 含 了 后 者 描绘 的 所 有 功能 细节 。 注 意 ， 在 两 
个 图 中 ,输入 ro = +] 和 相关 的 突 触 权 值 wo 二 5;， 其 中 b 是 神经 元 & 的 偏 置 。 











x= +! 
Why gl} 
x, YEWA, x, Virol x) 
a) b) x; 
Se SG se X 输出 
ee s Yi 
=Y +y., X 
D L, 
c) d) Am 
图 9 HTAA g ii E H 2k ae y E as 图 10 神经 元 的 信号 流 图 


确实 ， 根 据 图 10 的 信和 号 流 图 所 显示 的 神经 元 模型 ， 我 们 可 以 给 出 一 个 神经 网 络 的 下 列 数 
学 定义 : 
神经 网 络 是 由 具有 互相 连接 的 突 触 节点 和 激活 连接 构成 的 有 向 图 ， 具 有 4 个 主要 特征 ， 
1. 每 个 神经 元 可 表示 为 一 组 线性 的 突 触 连接 ， 一 个 外 部 应 用 偏 置 ， 以 及 可 能 的 非 线 性 激 
活 连 接 。 偏 置 由 和 一 个 固定 为 十 1 的 输入 连接 的 突 触 连接 表示 。 
2. 神经 元 的 突 触 连接 给 它们 相应 的 输入 信号 加 权 。 
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3. 输入 信号 的 加 权 和 构成 该 神经 元 的 诱导 局 部 域 。 
4. 激活 连接 压制 神经 元 的 诱导 局 部 域 产 生 输 出 。 


一 个 如 此 定义 的 有 向 图 是 完全 的 ， 这 是 指 它 不 仅仅 横 述 了 神经 元 同 的 信号 流 ， 也 描述 了 每 个 
神经 元 内 部 的 信号 流 。 但 是 当 我 们 的 注意 集中 在 神经 元 之 间 的 信号 流 上 时 ， 可 以 使 用 这 个 图 的 一 
个 简略 形式 ， 它 省 略 神经 元 内 部 的 信号 流 的 细节 。 这 样 的 有 向 图 是 局 部 完全 的 ， 它 的 特征 是 : 

1. 源 节 点 向 图 提供 输入 信号 。 

2. 每 个 神经 元 由 称 为 计算 节点 的 单个 扩 点 表示 。 

3. 联结 图 中 源 节 点 和 计算 节点 之 间 的 通信 连接 没有 权 值 ， 它 们 仅仅 提供 图 中 信和 吕 流 的 方向 。 
这 样 定义 的 一 个 局 部 完全 的 有 向 图 就 是 所 谓 的 神经 网 络 结构 图 ， 描 述 神经 网 络 的 布局 。 图 11 
给 出 了 具有 m 个 源 节点 和 一 个 用 于 偏 置 的 、 固 定 为 十 1 的 节点 的 单一 神经 元 的 简单 情况 。 注 意 
表示 该 神经 元 的 计算 节点 以 阴影 显示 ， 而 源 节 点 用 小 方块 显 
示 。 在 本 书 中 ， 我 们 都 遵循 这 里 的 表示 方法 。 在 0.6 节 有 更 精 
巧 的 布局 结构 图 的 例子 。 

总 的 来 说 ,我 们 有 三 种 神经 网 络 的 图 形 表 示 方 法 : 

。 方 框图 ， 提 供 网 络 的 功能 摘 述 ; 





x=+1 0 





。 结构 图 ， 描 述 网 络 布局 ; Xn 

。 信号 流 图 ， 提 供 网 络 中 完全 的 信号 流 描述 。 二 交代 
0.5 反馈 

当 系 统 中 一 个 元 素 的 输出 能 够 部 分 地 影响 作用 于 该 元 素 的 输入 ， 从 而 造成 一 个 或 多 个 围绕 
该 系统 进行 信号 传输 的 封闭 路 径 时 ， 我 们 说 动态 系统 中 存在 着 反馈 Ceedback),. KL, M 
馈 存 在 于 所 有 动物 神经 系统 的 几乎 每 一 部 分 中 Freeman, x(n) A 





1975) 。 并 且 ， 在 一 类 特殊 的 神经 网 络 -一 一 递归 网 络 的 研究 中 — A e 

扮演 着 重要 角色 。 图 12 表示 单 环 反馈 系统 的 信号 流 图 ， 输 入 - 

信和 号 zx;(n)、 内 部 信号 oC) 和 输出 信号 yi(n) 是 离散 时 间 变 量 

的 函数 。 这 个 系统 被 假定 为 线性 的 ， 由 “ 算 子 ”A 表示 的 前 图 12 PRR ARI me 

向 通道 和 “ 算 子 ”B 表示 的 反馈 通道 组 成 。 特 别 地 ， 前 向 通道 的 输出 通过 反馈 通道 来 部 分 地 影 
响 自己 的 输出 。 由 图 12 可 以 很 容易 得 到 这 样 的 输入 输出 关系 : 





y(n) = Alzi Cn) |] (16) 
xi (n) = x; (n) + BLy, J (17) 
其 中 方 括号 是 为 了 强调 A 和 B 是 扮演 着 算 子 的 角色 。 在 式 (16) 和 式 (17) 中 消去 z; (n)， 得 到 
yn) = fa] (18) 
我 们 把 A/ (1 一 AB) 称 为 系统 的 闲 环 算 子 ，AB 称 为 开 环 算 子 。 通 常 ， 开 环 算 子 没有 交换 性 ， 即 
BAAB, 
例如 ， 考 虑 图 13a 中 的 单 环 反馈 系统 。A 是 一 个 固定 的 权 值 w, B 是 单位 时 间 延 迟 工 子 
=-- ， 其 输出 是 输入 延迟 一 个 时 间 单 位 的 结果 。 我 们 可 以 将 这 个 系统 的 闭环 算 子 表示 为 
A w 


= wl — wz!) 


AB 1 
将 〈1 一 mwz-10) 一 二 项 式 展开 ， 可 以 把 系统 的 团 环 算 子 重 写 为 | 
一 人 _ wò wz” (19) 
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因此 ， 将 式 (19) 代 入 式 (18)， 我 们 有 


y(n) = wwz Lx; (n) | (20) 
其 中 ， 再 次 用 方 括 导 强调 > 是 算 子 的 事实 。 特别 地 ， 由 z 的 定义 我 们 有 
z [zx;(n)|]= zr,(n—D) | (21) 


其 中 xz;(n 一 站 是 输入 信号 延迟 7 个 时 间 单 位 的 样本 。 因 此 ， 可 以 用 输入 xj (mn) 现在 和 过 去 所 有 
样本 的 无 限 加 权 和 来 表示 输出 yn): 


y(n) = S jwt ar a 1) (22) 


2!  x(n-1) = 





o y(n) 





KI 13 a) 一 阶 无 限 冲击 响应 CIR ERRA S AER; b) 图 中 a) WORTE. Ht A 204 E 


我 们 现在 清楚 地 看 到 由 图 13 的 信号 流 图 表示 的 反馈 系统 的 动态 行为 是 由 权 值 w 控制 的 。 特 别 
是 ， 我 们 可 以 识别 两 种 特殊 情况 : 

l. | 让 <1， 此 时 和 输出 信号 y(n) 以 指数 收 化; 也 就 是 说 ， 系 统 是 稳定 的 。 如 图 14a 对 一 个 
iE w 值 的 情况 所 示 。 

2. | ww| 宇 1， 此 时 输出 信号 y(n) 发 散 ; 也 就 是 说 ， 系 统 是 不 稳定 的 。 图 14b 是 |w| 二 1 的 
情况 ， 发 散 是 线性 的 ; 图 14c Elw ol 的 情况 ， 发 散 是 指数 的 。 

稳定 性 是 闭环 反馈 系统 研究 中 的 突出 特征 。 


y(n) 





wx, (0) es 





图 14 图 13 中 前 馈 权 值 也 的 三 种 不 同 值 的 时 间 咱 应 : 2 稳定 ; b) 线性 发 散 ; © 指数 发 散 


lw | <1 的 情况 对 应 于 具有 无 限 记忆 的 系统 ， 这 是 指 系统 的 输出 依赖 于 无 限 过 去 的 输入 样 
本 。 并 且 ， 过 去 的 样本 对 记忆 的 影响 是 随时 间 n SR. BERN. lw] ER 
于 数 1 足够 小 以 保证 对 任何 实际 目的 来 说 wy” 是 可 以 忽略 的 。 在 这 种 情况 下 ， 可 以 通过 下 面 的 
有 限 和 来 逼近 输出 ye: 


N—I1 


y(n) 人 Dw izr,(na m0) = wn) t wz; (n— 1)+wr(nm2) += 十 本 
FAD HE, 7 可 以 利用 图 13b 所 示 的 前 馈 信 号 流 图 作为 图 13a 的 反馈 信号 流 图 的 逼近 。 在 实 现 这 样 
的 逼近 的 时 候 ， 我 们 称 为 反馈 系统 的 “伸展 "”。 然 而 ， 必 须 说 明 的 是 ， 仅 在 反馈 系统 稳定 的 时 
候 伸 展 操作 才 有 实际 价值 。 

由 于 用 于 构造 神经 网 络 的 处 理 单 元 通常 是 非 线 性 的 ， 因 此 它 所 涉及 的 反馈 应 用 的 动态 行为 
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分 析 孝 很 复杂 。 这 一 点 在 本 书后 面 会 给 出 进一步 分 析 ， 
0.6 网 络 结构 


神经 网 络 中 神经 元 的 构造 方式 与 用 于 训练 网 络 的 学 习 算 法 有 着 紧密 的 联系 。 因 此 ， 我 们 可 
以 说 ， 用 于 神经 网 络 设计 的 学 习 算 法 GUID 是 被 构造 的 。 我 们 将 在 0. 8 节 讨 论 学 习 算 法 的 分 
类 。 这 一 节 我 们 专注 于 网 络 的 体系 绪 构 。 

一 般 说 来 ， 我 们 可 以 区 分 三 种 基本 不 同 的 网 络 结构 。 

单 层 前 馈 网 络 

在 分 层 网 络 中 ， 神 经 元 以 层 的 形式 组 织 。 在 最 简单 的 分 层 网 络 中 ， 源 节点 构成 输入 层 ， 直 
接 投 射 到 神经 元 输出 层 〈 计 算 节 点 ) 上 ， 反 之 则 不 然 。 也 就 是 说 ， 这 个 网 络 是 严格 前 饥 的 。 如 
图 15 所 示 ， 输出 输入 层 各 有 4 个 节点 。 这 样 的 网 络 称 为 单 屋 网 。 单 层 指 的 是 计算 节点 《神经 
元 ) 输出 层 。 我 们 不 把 源 节点 的 给 入 层 计算 在 内 ， 因 为 在 这 一 层 没有 进行 计算 
多 层 前 馈 网 络 

前 馈 神经 网 络 的 第 二 种 网 络 有 一 层 或 多 层 隐 藏 屋 ， 相 应 的 计算 节点 称 为 隐藏 神经 元 或 隐藏 
单元 。 隐 藏 是 指 神经 网 络 的 这 一 部 分 无 论 从 网 络 的 输入 端 或 者 输出 端 都 不 能 直接 看 到 。 隐 藏 神 
经 元 的 功能 是 以 某 种 有 用 的 方式 介 人 外 部 输入 和 网 络 输出 之 中 。 通 过 增加 一 个 或 多 个 隐藏 层 ， 
网 络 可 以 根据 其 输入 引出 高 阶 统计 特性 。 即 使 网 络 为 局 部 连接 ， 由 于 额外 的 突 触 连接 和 额外 的 
神经 交互 作用 ， 也 可 以 使 网 络 在 不 十 分 严格 的 意义 下 获得 一 个 全 局 关系 (Churchland and Se- 
jnowski, 1992), 

网 络 输入 层 的 源 节 点 提供 激活 模式 的 元 素 〈 输 和 向量)， 组 成 第 二 层 〈 第 一 隐藏 层 ) 神经 
元 (计算 节点 ) 的 输入 信号 。 第 二 层 的 输出 信号 作为 第 三 层 输 入 ， 这 样 一 直 传 递 下 去 。 通 笛 ， 
每 一 屋 的 输入 都 是 上 一 层 的 输出 ， 最 后 的 输出 层 给 出 相对 于 源 节点 的 激活 模式 的 网 络 输出 。 结 
构图 如 图 16 所 示 ， 图 中 只 有 一 个 隐藏 层 以 简化 神经 网 络 的 布局 。 这 是 一 个 10 一 4 一 2 网 络 ， 其 
中 有 10 个 源 节点 ，4 个 隐藏 神经 元 ，2 个 输出 神经 元 。 作 为 另外 一 个 例子 ， 具 有 m PR 
的 前 玺 网络 ， 第 一 个 隐藏 屋 有 户 个 神经 元 ， 第 二 个 隐藏 层 有 h 个 神经 元 ， 输 出 层 有 9 个 神经 
Jos ALBA mh hq 网 络 。 





源 节 后 神经 元 源 节 点 隐藏 神 神经 元 
WAE 输出 层 输入 层 经 元 层 输出 层 
图 15 单 层 神经 元 前 馈 网 络 图 16 具有 一 个 隐藏 层 和 输出 层 的 全 连接 前 馈 网 络 
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图 16 的 网 络 也 可 以 称 为 完全 连接 网 络 ， 这 是 指 相 邻 层 的 任意 一 对 节点 都 有 连接 。 如 果 不 
是 这 样 ， 我 们 称 之 为 部 分 连接 网 络 。 
递归 网 络 

递归 网 络 和 前 馈 网 络 的 区 别 在 于 它 至 少 有 一 个 反馈 环 。 如 图 17 所 示 ， 弟 归 网 络 可 以 由 单 
层 神经 元 组 成 ， 单 层 网 络 的 每 一 个 神经 元 的 输出 都 反馈 到 所 有 其 他 神经 元 的 输入 中 。 这 个 图 中 
描绘 的 结构 没有 自 肥 馈 环 ; 有 反馈 环 表示 神经 元 的 输出 反馈 到 它 是 己 的 输 和 上。 留 17 也 没有 

图 18 所 示 是 带 有 隐藏 神经 元 的 另 一 类 递归 网 络 ， 反 馈 连 接 的 起 点 包括 隐藏 层 神 经 元 和 输 
出 神经 元 。 






单位 时 让 
Ea eal eae 














图 17 无 自 反 馈 环 和 隐藏 神经 元 的 递归 网 络 图 18 有 隐藏 神经 元 的 递归 网 络 
无 论 是 在 图 17 或 图 18 的 递归 结构 中 ， 反 馈 环 的 存在 对 网 络 的 学 习 能 力 和 它 的 性 能 都 有 深 
刻 的 影响 。 并 且 ， 由 于 反馈 环 涉及 使 用 单位 时 间 延 迟 元 素 〈 记 为 = ) 构成 的 特殊 分 支 ， 假 如 
神经 网 络 包含 非 线性 单元 ， 将 导致 非 线性 的 动态 行为 。 ` 


0.7 知识 表示 

0. 1 节 中 用 到 了 “知识 ”这 个 术语 ， 我 们 用 它 来 定义 神经 网 络 的 时 候 没 有 对 它 的 涵义 作 明 
确 的 表述 。 现 在 来 关注 这 一 点 ， 并 在 下 面 给 出 关于 知识 的 一 般 性 定义 (Fischler and Firschein, 
1987): 

知识 就 是 人 或 机 器 储存 起 来 以 备 使 用 的 信息 或 模型 ， 用 来 对 外 部 世界 作出 解释 、 预 出 和 适 
当 的 反应 。 
知识 表示 的 主要 特征 有 两 个 方面 : (1) 什么 信息 是 明确 表述 的 ; (2) 物理 上 信息 是 如 何 锌 编码 
和 使 用 的 。 按 知识 表示 的 本 性 ， 它 是 目标 虹 血 的 。 在 “智能 ”机 器 的 现实 应 用 中 ， 可 以 说 好 的 
方案 取决 于 好 的 知识 表示 (Woods，1986)。 代 表 一 类 特殊 智能 机 器 的 神经 网 络 也 是 如 此 。 但 
是 ， 典 型 地 ， 从 输入 到 内 部 网 络 参 数 的 可 能 表现 形式 是 高 度 多 样 性 的 ， 这 就 导致 基于 神经 网 络 
的 对 满意 解 的 求解 成 为 一 个 具有 挑战 性 的 设计 。 
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神经 网 络 的 一 个 主要 任务 是 学 习 它 所 依存 的 外 部 世界 (环境) 模型， 并 且 保 持 该 模型 和 真 
实 直 界 足 够 兼容 ， 使 之 能 够 实现 感 兴 趣 应 用 的 特定 目标 。 有 关 址 界 的 知识 由 两 类 信息 组 成 。 

L 已 知 世 界 的 状态 ,由 “什么 是 ”事实 和 “什么 是 已 知道 的 ”事实 所 表示 ; 这 种 形式 的 
知识 称 为 先 验 信息 (priori information), 

2. 对 世界 的 观察 〈 测 量 ) ， 由 神经 网 络 中 被 设计 用 于 探测 环境 的 传感器 获得 。 一 般 说 来 ， 
这 些 观 察 是 带 有 固有 了 噪声 的 ， 这 是 由 于 传感器 的 噪声 和 系统 的 不 完善 而 产生 的 误差 。 不 管 怎 
样 ， 这 样 得 到 的 观察 会 提供 一 个 信息 池 ， 从 中 提取 样 例 来 训练 神经 网 络 。 

样 例 可 以 是 有 标号 的 ， 也 可 以 是 无 标号 的 。 对 于 带 标 号 样 例 来 说 ， 每 个 样 例 的 输入 信号 有 
相应 的 与 之 配对 的 期 望 响 应 〈 即 目标 输出 )。 另 一 方面 ， 无 标号 的 样 例 包括 输 和 人 信和 号 是 身 的 不 
同 实现 。 不 管 怎样 ， 一 组 样 例 ， 无 论 有 无 标号 ， 都 代表 了 神经 网 络 通过 训练 可 以 学 习 的 环境 知 
识 。 但 是 ， 要 说 明 的 是 ， 带 标号 样 例 的 采集 可 能 代价 较 高 ， 因 为 它们 需要 “教师 ”来 对 每 个 市 
标号 样 例 提 供需 要 的 响应 。 与 之 相反 ,通常 无 标号 样 例 数目 是 足够 的 ， 因 为 对 无 标号 样 例 来 说 
不 需要 教师 。 

一 组 由 输入 信号 和 相应 的 期 望 响应 所 组 成 的 输入 输出 对 称 为 训练 数据 集 (set of training 
data) 或 简单 称 为 训练 样本 (training sample)。 为 了 说 明 怎样 使 用 这 样 的 数据 集 ， 我 们 以 手写 
数字 识别 问题 为 例 。 在 这 个 问题 中 ， 输 入 信号 是 一 幅 黑 白 图 像 ， 每 幅 图 像 代 表 可 以 从 背景 中 明 
显 区 分 出 的 十 个 数字 之 一 。 期 望 的 响应 就 是 “确定 ”网 络 的 输入 信号 代表 哪个 数字 。 通 常 训练 
样本 就 是 手写 体 数字 的 大 量变 形 ， 这 代表 了 真实 世界 的 情形 。 有 了 这 些 样本 ， 可 以 用 如 下 的 办 
法 设计 神经 网 络 : 

。 为 神经 网 络 选择 一 个 合适 的 结构 ， 输 入 层 的 源 节点 数 和 输入 图 像 的 像素 数 一 样 ， 而 输 

出 层 包 含 10 个 神经 元 (每 个 数字 对 应 一 个 神经 元 )。 利 用 合适 的 算法 ， 以 样本 的 一 个 
子 集 来 训练 网 络 。 这 个 网 络 设计 阶段 称 为 学 习 。 

。 用 隔 生 样本 来 测试 已 训练 网 络 的 识别 性 能 。 具 体 来 说 ， 呈 现 给 网 络 一 幅 输入 图 像 时 并 
告诉 它 这 幅 图 像 属于 哪个 数字 。 网 络 的 性 能 就 用 网 络 报告 的 数字 类 别 和 输入 图 像 的 
实际 类 别 的 差异 来 衡量 。 网 络 运行 的 这 个 第 二 个 阶段 叫做 测试 ， 对 测试 模式 而 言 的 成 
功 性 叫做 泛 化 ， 这 是 借用 了 心理 学 的 术语 。 

这 里 神经 网 络 的 设计 与 传统 信息 处 理 对 应 部 分 〈 模 式 分 类 器 ) 的 设计 有 着 根本 的 差别 。 对 
后 一 种 情况 来 说 ， 首 先 我 们 通常 设计 一 个 观测 环境 的 数学 模型 ， 并 利用 真实 数据 来 验证 这 个 模 
型 ， 再 以 此 模型 为 基础 来 设计 。 相 反 ， 神 经 网 络 的 设计 直接 基于 实际 数据 ，“ 让 数据 自己 说 
话 ”。 因 此 神经 网 络 不 但 提供 了 其 内 租 于 环境 的 隐 含 模型 ， 也 实现 了 感 兴趣 的 信息 处 理 功能 。 

用 于 训练 神经 网 络 的 例子 可 以 由 正 例 和 反例 组 成 。 比 如 ， 在 被 动 声呐 探测 问题 上 ， 正 例 是 
有 关 包 括 感 兴趣 的 目标 (如 潜艇 ) 的 输入 训练 数据 。 在 被 动 声呐 环境 下 ， 测 试 数据 中 可 能 存在 
的 海洋 生物 经 常 造成 虚 警 。 为 了 缓解 这 个 问题 ， 可 以 把 反例 〈 如 海洋 生物 的 回声 ) 包括 在 训练 
集中 从 而 教会 网 络 不 要 混淆 海洋 生物 和 目标 。 

在 神经 网 络 的 独特 结构 中 ， 周 围 环境 的 知识 表示 是 由 网 络 的 自由 参数 ( 即 突 触 权 值 和 偏 置 ) 
的 取 值 所 定义 的 。 这 种 知识 表示 的 形式 构成 神经 网 络 的 设计 本 身 ， 因 此 ， 也 是 网 络 性 能 的 关键 。 
知识 表示 的 规则 

然而 ， 在 人 工 网 络 中 知识 的 表示 是 非常 复杂 的 。 这 里 有 关于 知识 表示 的 通用 的 4 条 规则 ， 


如 下 所 述 。 
规则 1 相似 类 别 中 的 相似 输入 通常 应 产生 网 络 中 相似 的 表示 ， 因 此 ， 可 以 归 入 同一 类 中 。 
测量 输入 相似 性 有 很 多 方法 。 常 用 的 测量 方法 是 利用 欧 几 里 得 距离 的 概念 。 具 体 来 说 ， 令 
x, 定义 一 个 mX1 HHE, 
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E E E oe ea 
所 有 的 元 素 痢 是 实 值 ;， 上 标 工 表 示 和 矩阵 转 置 。 回 量 zx; 就 是 m 维 空间 〈 称 为 欧 几 里 得 空间 ) 的 
一 个 点 ， 记 为 民 ”。 如 图 19 所 示 ， 两 个 m xX] 向 量 xo x, 之 间 的 欧 几 里 得 距离 定义 为 


JR 人 P AR (23) 


其 中 x ，zx 分 别 是 输 入 向 量 x. x, WAR Pate. MH, Hx. x, 表示 的 两 个 输入 的 
相似 性 就 定义 为 欧 几 里 得 距离 d(x,，x;)。 输 入 向 量 x A x 相距 越 近 ， 欧 几 里 得 距离 d, 
xi ) 就 越 小 ， 相 似 性 就 越 大 。 规 则 1 说 明 ， 如 果 两 个 向 量 是 相似 的 ， 就 将 它们 归 人 同一 类 。 

男 一 个 相似 性 测量 方法 是 基于 点 积 或 内 积 ， 它 也 是 借用 了 矩阵 代数 的 概念 。 给 定 一 对 相同 
维 数 的 向 量 x;，x;， 它 们 的 内 积 是 xx. 定义 为 向 量 x 对 向 其 x, 的 投影 ， 如 图 19 Pa. AR 
开 如 下 : 


《Xi ,Xi ) E x; X; = >» ree (24) 


ARC. ORARE | x Ie Ix; |. 就 是 两 个 癌 
H Xo Xj 的 夹 角 的 余弦 。 

这 里 定义 的 两 种 相似 性 度量 有 密切 的 关系 ， 如 图 19 
所 示 。 图 19 清楚 地 表明 欧 几 里 得 距离 ‖ x; 一 x; || Be), 
向 量 x; A x; 越 相 似 ， 内 积 xi x; 越 大 。 

为 了 把 这 种 关系 置 于 形式 化 基础 之 上 ， 首 先 将 向 量 
x, Fx; 归 一 化 ， 即 





tx || = lxl=1 图 19 图解 内 积 以 及 作为 模式 相似 性 度量 
我 们 就 可 以 将 式 (23) 写 成 . 的 欧 几 里 得 距离 之 间 的 关系 
d’ (XiyXi ) z (Xi — xj) Cx; — X; ) = 2 一 2X X; (25) 


式 (25) 表 明 最 小 化 欧 几 里 得 距离 d(x; ,x ) 就 对 应 于 最 大 化 内 积 (x; ,zx)， 因 而 ， 也 对 应 于 最 大 化 
Xi AY x; Z lal AS RE FE 

这 里 的 欧 几 里 得 距离 和 内 积 的 定义 都 是 用 确定 性 的 术语 定义 的 。 如 果 回 量 x% 和 x 是 “ 随 
机 的 ”， 从 不 同 数据 群体 或 集合 中 得 来 的 ， 又 该 怎样 定义 相似 性 呢 ? 具体 来 说 ， 假 设 两 个 群体 
的 差异 仅 在 它们 的 均值 向 量 。 令 及 和 分 别 表示 向 量 x Ax, 的 均值 。 也 就 是 说 ， 

nu; = Elx, | (26) 

其 中 FE 是 数据 向 量 x; 的 集合 体 Censemble) 的 统计 期 望 算 子 (statistical expectation operator), 
用 同样 的 方法 定义 均值 向 量 p;。 为 了 度量 这 两 个 群体 的 距离 ， 可 以 用 Mahalanobis 距离 来 衡 
量 ， 记 为 履 。 从 到 5 的 距离 的 平方 值 定义 为 : 


di. = (X; — W)C (x; — p;) (27) 
其 中 C-: 是 协 方差 矩阵 CAE. (TAA ZI, HONG: 
C = EL (x; — p,) (x; — pd?) = ELC, — poy — bw) (28) 


则 对 于 给 定 的 C 来 说 ， 距 离 4d; 越 小 ， 向 量 x, Al x, 越 相似 。 

当 x =x, w=—p—p A CL A ARMER), Mahalanobis 距离 变 为 样本 回 量 x; 和 均 
{Ef Vet eet po 间 的 欧 几 里 得 距离 。 

无 论 数据 向 量 x, 和 x; 是 确定 的 还 是 随机 的 ， 规 则 1 讨论 了 这 两 个 向 量 之 间 是 如 何 彼此 相 
关 和 的。 相关 性 不 仅仅 在 人 类 大 脑 中 起 着 关键 的 作用 ， 同 样 对 多 种 信号 处 理 系统 来 说 也 是 如 此 
(Chen et al. , 2007), 

规则 2 网 络 对 可 分 离 为 不 同 种 类 的 输入 向 量 给 出 差别 很 大 的 表示 。 
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根据 规则 1， 从 一 个 特定 的 类 中 取得 的 模式 之 间 有 一 个 很 小 的 代数 测量 值 (如 欧 几 里 得 距 
离 )。 另 一 方面 ， 从 不 同类 中 取得 的 模式 之 间 的 代数 测量 值 必须 很 大 。 因而， 我们 说 规则 2 与 
规则 1 TEAR RZ 

规则 3 如 果 某 个 特征 很 重要 ， 那 么 网 络 表 示 这 个 向 量 将 涉及 大 量 神 经 元 。 

比如 ， 考 虑 用 雷达 来 探测 在 混杂 状态 〈 即 雷达 从 不 期 望 的 目标 如 建筑 物 、 树 木 和 云层 的 反 
射 ) 下 的 目标 《如 航空 货 ) 。 这 样 的 雷达 系统 的 探测 性 能 由 下 面 两 种 概率 形式 来 衡量 : 

。 探测 概率 ， 就 是 目标 存在 时 系统 判断 目标 出 现 的 概率 。 

。 虚 警 概率 ， 就 是 日 标 不 存在 时 系统 判断 目标 出 现 的 概率 。 

根据 Neyman-Pearson 准则 ， 在 虚 警 概率 不 超过 预先 指定 值 的 限制 下 ， 探测 概率 达到 最 大 
值 (Van Trees，1968)。 在 这 种 应 用 中 ， 接 收 到 的 信号 中 目标 的 实际 出 现代 表 着 输入 信号 中 的 
重要 特征 。 实 际 上 ， 规 则 3 意味 着 在 真实 目标 在 在 的 时 候 应 该 有 大 量 神经 元 参与 判决 该 目标 出 
现 。 同 理 ， 仅 当 混 杂 状 态 实 际 存在 的 时 候 才 应 该 有 大 量 神经 元 参与 判决 该 混杂 状态 的 出 现 。 在 
这 两 种 情形 下 ， 大 量 的 神经 元 保证 了 判决 的 高 度 准 确 性 和 对 错误 神经 元 的 容错 性 。 

规则 4 ”如果 在 在 先 验 信息 和 不 变性 ， 应 该 将 其 附加 在 网 络 设计 中 ， 这 样 就 不 必 字 习 这 些 
信息 而 简化 网 络 设 许 。 

规则 4 特别 重要 ， 因 为 真正 坚持 这 一 规则 就 会 使 网 络 具 有 特定 结构 。 这 一 点 正 是 我 们 需 
的 ， 原 因 如 下 : 

1. 已 知 生 物 视觉 和 听觉 网 络 是 非常 特别 的 。 

2. 相对 于 完全 连接 网 络 ， 特 定 网 络 用 于 调节 的 自由 参数 是 较 少 的 。 因 此 ， 特 定 网 络 所 需 
的 训练 数据 更 少 ， 学 习 更 快 而 且 常 常 沁 化 性 能 更 强 ，。 

3. 能 够 加 快 通过 特定 网 络 的 信息 传输 速率 〈 即 网 络 的 大 吐 量 )。 

4. 和 全 连接 网 络 相 比特 定 网 络 的 建设 成 本 比较 低 ， 因 为 其 规模 较 小 。 
然而 ， 要 说 明 的 是 ， 将 先 验 知 识 结 合 进 神经 网 络 的 设计 中 会 限制 神经 网 络 仅 能 应 用 于 根据 某 些 
感 兴趣 的 知识 来 解决 特定 问题 。 
怎样 在 神经 网 络 设计 中 加 入 先 验 信息 

当然 ， 怎 样 在 神经 网 络 设 计 中 建立 先 验 信息 ， 以 此 建立 一 种 特定 的 网 络 结 构 ， 是 必须 考虑 
的 重要 问题 。 遗 憾 的 是 ， 现 在 还 没有 一 种 有 效 的 规 
则 来 实现 这 一 目的 ; 月 前 我 们 更 多 的 是 通过 某 些 特 
别 的 过 程 来 实现 ， 并 已 知 可 以 产生 一 些 有 用 的 结 
果 。 特 别 是 我 们 使 用 下 面 两 种 技术 的 结合 : 

1. 通过 使 用 称 为 接收 域 (receptive field) 的 
局 部 连接 ， 限 制 网 络 结构 。 

2, 通过 使 用 权 值 共享 Cweight-sharing)’, FR 
制 突 触 权 值 的 选择 。 

这 两 种 方法 ， 特 别 是 后 一 种 ， 有 很 好 的 附 市 效 
益 ， 它 能 使 网 络 自由 参数 的 数量 显著 下 降 。 

作为 特例 ， 考 虑 一 个 如 图 20 所 示 的 部 分 连接 








前 馈 网 络 。 这 个 网 络 构造 具有 带 限制 的 结构 。 顶 部 。 e -o 

Ag He y m t bk 其 
6 ARARE 1 的 接收 域 ， MRR 图 20 联合 利用 接收 域 和 权 值 共享 的 图 例 。 
入 域 区 域 ， 其 输入 刺激 能 够 影响 该 神经 元 产生 的 输 的 相同 权 值 集 
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出 信号 。 接 收 域 的 绘制 是 关于 该 神经 元 行为 以 及 其 输出 的 有 效 而 快速 的 描述 。 

为 满足 权 值 共享 限制 ,我们 对 网 络 隐 藏 层 中 的 每 个 神经 元 都 使 用 同一 组 突 触 权 值 。 这 样 ， 
在 图 20 所 示 的 例子 中 ， 每 个 隐藏 神经 元 有 6 个 局 部 连接 ， 共有 4 个 隐藏 神经 元 ， 我 们 可 以 表 
示 每 个 隐藏 神经 元 的 诱导 局 部 域 如 下 : 


g= du aA (29) 


其 中 (zj 构成 所 有 四 个 隐藏 神经 元 共享 的 同一 权 值 集 ，ze HAT A Ri tj] 挑选 的 
信和 号。 式 (29) 为 卷 积 和 的 形式 。 这 里 描述 的 前 馈 网 络 使 用 局 部 连接 和 权 值 共享 的 方式 ， 我 们 称 
这 样 的 前 馈 网 络 为 卷 积 网 络 (LeCun and Bengio, 2003). 

在 神经 网 络 的 设计 中 建立 先 验 信 息 的 问题 是 属于 规则 4 的 一 部 分 ;该 规则 的 剩余 部 分 涉及 
不 变性 问题 ， 下 面 进一步 讨论 。 

如 何在 刚 络 设计 中 建立 不 变性 

考虑 下 列 物理 现象 : 

© 当 感 兴趣 的 目标 旋转 时 ， 观 察 者 感知 到 的 目标 图 像 通常 会 产生 相应 的 变化 。 

。 在 一 个 提供 它 周围 环境 的 幅度 和 相位 信息 的 相干 雷达 中 ， 由 于 目标 相对 于 雷达 射线 运 

动 造成 的 多 普 勒 效应 (Doppler effect)， 活 动 目 标的 回声 在 频率 上 会 产生 偏 移 。 

。 人 说 话 的 语调 会 有 高 低 快 慢 的 变化 。 

为 了 分 别 建立 一 个 对 象 识别 系统 、 一 个 雷达 自 标 识别 系统 和 一 个 语音 识别 系统 来 处 理 这 些 
现象 ， 系 统 必 须 可 以 应 付 一 定 范围 内 观察 信号 的 交换 (transformation)。 相 应 地 ， 一 个 模式 识 
别 问题 的 主要 任务 就 是 设计 对 这 些 变换 不 变 (invariant) 的 分 类 器 。 也 就 是 说 ， 分 类 器 输出 的 
类 别 估 计 不 受 分 类 器 输入 观察 信号 变换 的 影 啊 。 

-至少 可 用 三 种 技术 使 得 分 类 器 类 型 的 神经 网 络 对 变换 不 变 〈Barnard and Casasent, 1991); 

1. 结构 不 变性 (invariance by structure) 。 适 当地 组 织 神经 网 络 的 设计 ， 在 神经 网 络 中 加 
进 不 变性 。 具 体 来 说 ， 在 建立 网 络 的 神经 元 突 触 连接 时 要 求 同 一 输入 变换 后 必须 得 到 同样 的 输 
出 。 例 如 考虑 利用 神经 网 络 对 输入 图 像 的 分 类 问题 ， 要 求 神经 网 络 不 受 图 像 关 于 中 心 的 平面 放 
转 的 影响 。 我 们 可 以 在 网 络 中 强制 加 上 旋转 不 变性 如 下 : 令 wi 表示 神经 元 ;和 输入 图 像 的 像 
Zi 的 连接 权重 。 如 果 对 所 有 两 个 到 图 像 中 心 距离 相等 的 像素 i 和 & ws we, BAA 
网 络 对 平面 内 的 旋转 不 变 。 但 是 为 了 保持 旋转 不 变性 ， 对 从 原点 出 发 的 相同 半径 距离 上 输入 图 
像 的 每 个 像素 必须 复制 突 触 权 值 w; 。 这 说 明了 结构 不 变性 的 一 个 缺点 : 神经 网 络 即使 在 处 理 
中 等 大 小 的 图 像 时 ， 网 络 中 的 连接 数目 也 会 变 得 非常 大 。 

2. 训练 不 变性 Cnvariance by training) 。 神 经 网 络 有 天 生 的 模式 分 类 能 力 。 利用 这 种 能 力 
可 以 直接 得 到 下 面 的 变换 不 变性 : 用 一 些 来 自 同 一 目标 的 不 同样 本 来 训练 网 络 ， 这 些 样本 代表 
目标 的 不 同 变换 〈 即 目标 的 不 同方 面 )。 假 设 样本 足够 大 且 训 练 后 的 网 络 已 经 学 会 分 辩 目 标的 
不 同方 面 ， 我 们 就 可 以 期 望 训 练 后 的 网 络 能 对 已 出 现 目标 的 不 同 变换 做 出 正确 的 泛 化 。 但 是 从 
工程 的 角度 看 ， 训 练 不 变性 有 两 方面 不 足 : 第 一 ， 如 果 一 个 神经 网 络 训练 后 对 已 知 变换 的 目标 
有 不 变性 ， 不 一 定 能 保证 它 对 其 他 类 型 目标 的 变换 也 有 不 变性 。 第 二 ， 网 络 的 计算 要 求 可 能 会 
很 难 达 到 ， 特 别 在 高 维特 征 空间 尤其 如 此 。 

3, 不 变 特征 空间 (invariant feature space)。 第 三 种 建立 神经 网 络 不 变性 分 类 器 的 技 术 如 
图 21 所 示 。 它 依赖 于 这 样 的 前 提 条 件 ， 即 能 提取 
表示 输入 数据 本 质 信息 内 容 特 性 的 特征 ， 并 且 这 WA 
些 特征 对 输入 的 变换 保持 不 变 。 如 果 使 用 这 样 的 
特征 ， 那 么 分 类 神经 网 就 可 以 从 刻画 具有 复杂 决 图 21 不 变 特征 空间 类 型 系统 方 杠 图 


分 类 器 类 型 ; 
神经 网 络 类 估计 
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策 边 界 的 目标 变换 范围 的 负担 中 解脱 出 来 。 确 实 ， 回 一 且 标 的 不 同事 例 的 差异 仅仅 在 于 噪声 和 
偶发 事件 等 不 可 避免 因素 的 影响 。 特 征 空 间 不 变性 提供 了 三 个 明显 的 好 处 : 第 一 ， 适 用 于 网 络 
的 特征 数 可 以 降低 到 理想 的 水 平 。 第 二 ， 网 络 设计 的 要 求 放宽 了 。 第 三 ， 所 有 目标 的 已 知 变换 
的 不 变性 都 得 到 保证 。 

fll 自 回 归 模 型 

为 了 描述 不 变 特征 空间 思想 ， 考 虑 一 个 用 于 空中 监控 相 于 雷达 系统 的 例子 ， 其 感 兴趣 的 日 
标 可 能 包括 航空 器 、 天 气 、 迁 移 鸟 群 以 及 地 面 且 标 。 这 些 目 标的 雷达 回声 具有 特有 的 谱 特 征 。 
并 且 ， 实 验 研究 表明 这 样 的 雷达 信号 容易 用 中 等 大 小 阶 的 自 回归 Cautoregressive, AR) 过 程 
模型 来 建 模 (Haykin and Deng，1991)。AR 模型 是 如 下 对 复数 数据 定义 的 回归 模型 的 特殊 
形式 : 


a(n) = Salata) +e) (30) 


其 中 fa)“. A AR 系数 ，M 为 模型 阶 ，xz(n) 为 输入 ，e(n) 为 用 白 噪声 表示 的 误差 。 基 本 上 ， 
式 (30) 的 AR 模型 由 带 状 延迟 线 滤 波 器 表示 ， 如 图 22a 中 M=2 的 情形 所 示 。 同 样 ， 它 可 由 图 
22b 所 示 的 网 格 滤波 器 表示 ， 它 的 系数 称 为 反射 系数 。 图 22a 中 模型 的 AR 系数 和 图 22b PR 
型 的 反射 系数 一 一 对 应 。 所 描绘 的 两 个 模型 都 假设 输入 x(n) 是 复数 ， 因 为 在 相干 雷达 的 情形 
F, AR 系数 和 反射 系数 都 为 复数 。 在 式 (30) 和 图 22 中 的 星 号 表示 复 共 轿 。 现 在 可 以 说 相干 
雷达 数据 可 以 用 一 组 自 回 归 系 数 来 描述 ， 或 者 由 一 组 相应 的 反射 系数 来 描述 。 后 一 组 系数 有 讨 
算 上 的 优点 ， 已 存在 有 效 的 算法 从 输入 数据 直接 计算 。 但 是 ， 特 征 提 取 问 题 是 很 复杂 的 ， 因 为 
活动 物体 产生 不 同 的 多 普 勒 频率 ， 这 取决 于 测 得 的 物体 相对 于 雷达 的 径 向 速度 ， 并 且 作 为 特征 
判别 式 的 反射 系数 的 谱 分 布 会 产生 模糊 。 为 了 克服 这 种 困难 ， 必 须 建 立 反射 系数 计算 中 的 多 首 
勒 不 变性 。 第 一 个 反射 系数 的 相位 角 结 果 与 雷达 信号 的 多 普 勒 频率 相等 。 相 应 地 ， 归 一 化 多 普 
勒 频率 可 以 去 掉 多 普 勒 位 移 的 均值 。 这 些 可 以 通过 从 输入 数据 计算 得 到 的 常规 反射 系数 (een) 
定义 新 的 反射 系数 (x) 来 实现 ; 

(31) 





图 22 ”二 阶 自 回归 模型 ，a) 带 状 延迟 线 模型 ，b) 网 格 滤波 器 模型 〈( 星 号 表示 复 共 轿 ) 
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其 中 9 为 第 一 反射 系数 的 相位 角 。 式 (31) 描 述 的 运算 称 为 外 差 法 。 一 组 多 普 勒 不 变 雷 达 特 征 可 由 
归 一 化 的 发 射 系 数 is kee tts ew 表示 ，ki 为 唯一 的 实 系数 。 我 们 说 过 ， 空 中 监控 的 雷达 目标 
主要 可 归 类 为 天 气 、 鸟 群 、 航 空 货 和 地 面 ， 前 三 类 目标 都 是 动 的 ， 后 一 种 则 是 不 动 的 。 地 面 回声 
混 频 后 的 谱 参 数 和 航空 器 类 似 ， 但 因为 其 小 的 多 普 勒 位 移 ， 地 面 回 声 可 以 和 飞机 相 区 别 。 相 应 
地 ， 雷 达 分 类 器 包括 一 个 如 图 23 所 示 的 后 处 理 器 ， 用 来 操作 分 类 结果 (编码 标号 ) 以 识别 地 面 
类 (Haykin and Deng，1991)。 这 样 ， 在 图 23 中 的 预 处 理 器 处 理 从 分 类 器 输入 中 抽取 的 多 普 勒 位 
移 不 变 特征 ;而 后 处 理 咒 利用 存储 的 多 普 勒 特征 区 分 返回 的 地 面 和 航空 器 信号 。 图 


ee LTH AS ae 
( 预 处 理 器 ) 









雷达 数据 











图 23 雷达 信号 的 多 普 勒 位 移 不 变 分 类 蘑 


例 2 回声 定位 蝙蝠 
神经 网 络 知识 表示 的 一 个 更 有 趣 的 例子 是 蝙蝠 的 生物 回声 定位 声呐 系统 。 为 了 声音 映射， 
大 多 数 蝙蝠 使 用 频率 调制 (FM 或 “chirp”) 信号 ， 在 FM 信号 中 ， 信 和 号 的 瞬时 频率 随时 间 变 
化 。 具 体 来 说 ， 蝙 蝠 用 口 发 出 短 时 FM 声呐 信号 ， 用 听觉 系统 来 作 接收 器 。 对 于 感 兴趣 目标 的 
回声 在 听觉 系 统 中 选用 声音 参数 不 同 组合 的 神经 元 活动 来 表达 。 蝙 蝠 的 听 党 表达 有 三 个 主要 的 
神经 维 数 (Simmons 等 ，1992) : 
。 回声 频率 ， 在 耳蜗 频率 图 中 通过 “位 置 ” 发 信 来 编码 ; 通过 整个 听 党 系统 的 通路 保存 ， 
该 通路 是 调制 成 不 同 频率 的 一 定神 经 元 的 有 序 排列 。 
。 回声 幅度 ， 由 其 他 具有 不 同 动态 范围 的 神经 元 编码 ; 它 被 表示 成 幅度 调制 和 每 个 刺激 
的 放电 次 数 。 7 
。 回声 延迟 ， 通 过 神经 计算 来 编码 〈 基 于 互相 关 ) 并 产生 延迟 选择 响应 。 它 被 表示 成 目 
br veh Fl Val til o 
用 于 图 像 形 成 的 目标 回声 的 两 个 主要 特点 是 目标 “形状 ”的 谱 和 且 标 范围 的 “延迟 ”。 利 
用 目标 不 同 反 射 面 回声 〈 反 射 ) 的 到 达 时 间 ， 蝙 蝠 感知 “形状 ”。 为 此 目的 ， 回 声 谱 的 频率 信 
息 被 转换 为 目标 的 时 间 结 构 佑 计 。 由 Simmons 及 其 合作 者 对 棕色 大 蝙蝠 (Eptesicus fuscus) 
进行 的 实验 严格 验证 了 这 个 转换 过 程 ， 它 的 组 成 包括 并 行 时 域 转换 和 频率 对 时 域 转换 构成 ， 它 
的 收 和 伍 输 出 产生 目标 感知 图 像 范围 轴 上 的 共同 延迟 。 虽 然 最 初 执行 的 回声 延迟 的 听觉 时 间 表 未 
和 回声 谱 的 频率 表示 方法 不 同 ， 但 看 起 来 蝙蝠 的 感知 协调 性 来 自 于 变换 自身 的 一 些 性 质 。 并 且 
特征 不 变性 被 嵌 人 声呐 图 像 形成 过 程 ， 所 以 它 本 质 上 独立 于 目标 运动 和 蝙蝠 自己 的 运动 。 
一 些 最 终 评论 
神经 网 络 中 的 知识 表示 和 网 络 结构 有 着 直接 关系 。 遗 己 的 是 ， 还 没有 成 功 的 理论 可 以 根据 
环境 来 优化 神经 网 络 结构 ， 或 者 评价 修改 网 络 结构 对 网 络 内 部 知识 表示 的 影响 。 实 际 上 ， 对 这 
些 问题 的 满意 结果 经 常 要 对 感 兴趣 的 具体 应 用 进行 彻底 的 实验 研究 才能 得 到 ， 而 神经 网 络 的 设 
计 者 也 成 为 结构 学 习 环 中 的 关键 部 分 。 国 


0.8 学 习 过 程 


和 我 们 自己 能 够 通过 多 种 不 同 的 方法 从 周围 环境 中 学 习 一 样 ， 神 经 网 络 也 有 多 种 不 同 的 学 
习 方 法 。 广 义 上 讲 ， 我 们 可 以 通过 神经 网 络 的 功能 来 对 其 学 习 过 程 进行 如 下 分 类 : 有 教师 学 习 
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和 无 教师 学 习 。 按 照 同样 的 标准 ， 后 者 又 可 以 分 为 无 监督 学 习 和 强化 学 习 两 个 子 类 。 这 些 应 用 
于 神经 网 络 的 不 同形 式 是 和 人 类 学 习 的 形式 相似 的 。 


有 教师 学 习 
有 教师 学 习 也 称 为 监督 学 习 。 au 是 说 明 这 种 学 习 方式 的 方 框图 。 从 概念 上 讲 ， 我 们 可 
以 认为 教师 具有 对 周围 环境 的 知识 ， 这 些 知识 被 表达 为 一 系列 的 输入 一 输出 样本 。 然 而 神经 网 


络 对 环境 却 一 无 所 知 。 现 在 假设 给 教师 和 神经 网 络 提供 从 同样 环境 中 提取 出 来 的 训练 向 量 〈 即 
样 例 )。 教 师 可 以 根据 自身 掌握 的 一 些 知识 为 神经 网 络 提供 对 训练 向 量 的 期 望 响 应 。 事 实 上 ， 
期 望 响应 一 般 都 代表 着 神经 网 络 完成 的 最 优 动作 。 神 经 网 络 的 参数 可 以 在 训练 问 量 和 误差 信号 
的 综合 影响 下 进行 调整 。 误 差 信 号 可 以 定义 为 神经 网 络 的 实际 响应 与 预期 响应 之 差 。 这 种 调整 
可 以 逐步 而 又 反复 地 进行 ， 其 最 终 目的 就 是 要 让 神经 网 络 模拟 (emulate) 教师 ; 在 茶 种 统计 
的 意义 下 ， 可 以 认为 这 种 模拟 是 最 优 的 。 利 用 这 种 手段 ， 教 师 所 向 握 的 关于 环境 的 知识 就 可 以 
通过 训练 过 程 最 大 限度 地 传授 给 神经 网 络 。 当 条 件 成 熟 的 时 候 ， 就 可 以 将 教师 排除 在 外 ， 让 神 
经 网 络 完 全 自主 地 应 对 环境 。 描述 环境 

我 们 刚刚 描述 的 监督 学 习 形式 是 误差 -修正 学 习 状态 的 向 量 
(error-correction learning) 的 基础 。 由 图 24 可 知 ， 监 <SHARERER) 
督学 习 系 统 构成 一 个 闭环 反馈 系统 ， 但 未 知 的 环境 不 
包含 在 循环 中 。 我 们 可 以 采用 训练 样本 的 均 方 误差 
(mean-square error) 或 平方 误差 和 (sum of squared 
errors) 作为 系统 性 能 的 测试 手段 ， 它 可 以 定义 为 系统 
的 一 个 关于 自由 参数 〈 即 突 触 权 值 ) 的 函数 。 该 函数 
可 以 看 作 一 个 多 维 误差- 性 能 曲面 (error-performance eye 
surface), W # fa PRR Z WG (error surface), HPA 
由 参数 作为 坐标 轴 。 实 际 误差 曲面 是 在 所 有 可 能 的 输 
人 给 出 样 例 上 的 平均 。 任 何 一 个 在 教师 监督 下 的 系统 给 定 的 操作 都 表示 误差 曲面 上 的 一 个 点 。 
该 系统 要 随时 间 而 提高 性 能 ， 就 必须 向 教师 学 习 ， 操 作 点 必须 要 向 误差 曲面 的 最 小 点 逐渐 下 
降 ， 误 差 极 小 点 可 能 是 局 部 最 小 ， 也 可 能 是 全 局 最 小 。 监 督学 习 系 统 可 以 根据 系统 当前 的 行为 
计算 出 误差 曲面 的 梯度 ， 然 后 利用 梯度 这 一 有 用 信息 来 求 得 误差 极 小 点 。 误 差 曲 面 上 任何 一 点 
的 梯度 是 指向 最 快速 下 降 方向 的 向 量 。 实 际 上 ， 通 过 样本 进行 监督 学 习 ， 系 统 可 以 采用 梯度 加 
量 的 “瞬时 估计 ”(instantaneous estimate), ， 这 时 将 样 例 的 索引 假定 为 访问 的 时 间 。 采取 这 种 
估计 一 般 会 导致 在 误差 曲面 上 操作 点 的 运动 轨迹 经 常 以 “随机 行走 ”的 形式 出 现 。 然 而 ， 如 东 
es 而 且 有 足够 的 输入 /输出 样本 集 和 充裕 的 训 
练 时 间 ， 那 么 监督 学 习 系 统 往往 能 够 较 好 地 逼近 一 个 未 知 的 输入 一 输出 映射 。 
无 教师 学 习 

在 监督 学 习 中 ， 学 习 过 程 是 在 教师 的 监督 下 进行 的 。 然而， 在 无 教师 学 习 范 例 中 ， 顾 名 思 
义 ， 没 有 教师 监视 学 习 过 程 。 也 就 是 说 ， 没 有 任何 带 标号 的 样 例 可 以 供 神经 网 络 学 习 。 在 无 教 
师 学 习 范 例 下 ， 又 有 如 下 的 两 个 子 类 。 
强化 学 习 

在 强化 学 习 (reinforcement learning) 中 ， 输入 输出 映射 的 学 习 是 通过 与 环境 的 不 断 区 互 
完成 的 ， 目 的 是 使 一 个 标量 性 能 指标 达到 最 小 。 图 25 显示 的 是 强化 学 习 系 统 的 方 框图 。 这 种 
学 习 系 统 建立 在 一 个 评价 的 基础 上 ， 评 价 将 从 周围 环境 中 接收 到 的 原始 强化 信号 转换 成 一 种 称 
为 启迪 强化 信号 的 高 质量 强化 信号 ， 两 者 都 是 标量 输入 〈Barto 等 ，1983) 。 设 计 该 系统 的 目的 









响应 


图 24 有 教师 学 习 方 框图 
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是 为 了 适应 延迟 强化 情况 下 的 学 习 ， 即 意味 着 系统 观察 从 环境 接收 的 一 个 时 序 刺激 ， 它 们 最 终 









产生 启发 式 的 强化 信号 。 oe 
强化 学 习 的 目标 是 将 cost-to-go 函数 最 小 化 ，cost- 状态 化 信号 


to-go PKI 数 定义 为 采取 一 系列 步骤 动作 的 代价 累积 期 望 m = x ar rm) 
值 ， 而 不 是 简单 的 直接 代价 。 可 以 证 明 : 在 时 间 序 列 上 | i 
早期 采取 的 动作 事实 上 是 整个 系统 最 好 的 决定 。 学 习 系 
统 的 功能 就 是 用 来 发 现 这 些 动作 并 将 它们 反馈 给 环境 。 
基于 如 下 两 个 原因 延迟 强化 学 习 系 统 很 难 完成 
。 在 学 习 过 程 中 的 每 个 步骤 ， 没 有 教师 提供 一 个 期 
nice ener 
。 生成 原始 强化 信号 时 的 延迟 意味 着 学 习 机 必须 解 5 cS : FARE 
决 时 间 信 任 赋值 问题 。 也 就 是 说 ， 对 将 导致 最 终 
结果 的 时 间 序 列 步 中 的 每 一 个 动作 ， 学 习 机 必须 各 自 独立 地 对 信任 和 责任 赋值 ， 而 原 
台 强化 可 能 仅 评价 最 终结 果 。 
尽管 存在 这 些 困 难 ， 但 延迟 强化 学 习 还 是 非常 有 吸引 力 的 。 它 提供 系统 与 周围 环境 交互 的 
基础 ， 因 此 可 以 仅仅 在 这 种 与 环境 交互 获得 经 验 结果 的 基础 上 ， 发 展 学 习 能 力 来 完成 指定 


任务 。 
无 监督 学 习 

如 图 26 所 示 ， 在 无 监督 或 自 组 织 学 习 系 统 中 ， 没 有 外 部 的 教师 或 者 评价 来 监督 学 习 的 过 程 。 而 
月 ， 必 须 提供 任务 独立 度量 (task-independent measure) 来 度 描述 环境 状态 





的 向 量 ， 
TL, > 学 习 系 统 


量 网 络 的 表达 质量 ， 让 网 络 学 习 该 度量 而 且 将 根据 这 个 
度量 来 最 优化 网 络 自由 参数 。 对 一 个 特定 的 任务 独立 度 
量 来 说 ,一 旦 神经 网 络 能 够 和 输入 数据 的 统计 规律 相 一 图 26 无 监督 学 习 方 框图 

致 ， 那 么 网 络 将 会 发 展 其 形成 输入 数据 编码 特征 的 内 部 表示 的 能 力 ， 从 而 自动 创造 新 的 类 别 
(Becker, 1991). 

为 了 完成 无 监督 学 习 ， 我 们 可 以 使 用 竞争 性 学 习 规 则 。 例 如 ， 可 以 采用 包含 两 层 的 神经 网 
络 : 输入 层 和 竞争 层 。 输 入 层 接收 有 效 数据 。 竞 争 层 由 相互 竞争 〈 根 据 一 定 的 学 习 规 则 ) 的 神 
经 元 组 成 ， 它 们 力图 获得 响应 包含 在 输入 数据 中 的 特征 的 “机 会 *。 最 简单 的 形式 就 是 神经 网 
络 采 用 “ 胜 者 全 得 ”的 策略 。 在 这 种 策略 中 具有 最 大 总 输入 的 神经 元 赢得 竞争 而 被 激活 ， 而 其 
他 所 有 的 神经 元 被 关 掉 。 

0.9 学 习 任务 

本 章 前 面 几 节 讨论 了 不 同 的 学 习 范 例 。 本 节 将 描述 一 些 基 本 的 学 习 任 务 。 对 特定 学 习 规 则 
的 选择 与 神经 网 络 需要 完成 的 学 习 任 务 密切 相关 ， 而 学 习 任 务 的 多 样 性 正 是 神经 网 络 通用 性 的 
证 明 。 
模式 联想 

联想 记忆 是 与 大 脑 相 似 的 依靠 联想 学 习 的 分 布 式 记 忆 。 自 从 亚 里 士 多 德 时 代 起 ， 联 想 就 被 
看 作 是 人 类 记忆 的 一 个 显著 特征 ， 而 且 认 知 的 所 有 模型 都 以 各 种 形式 使 用 联想 作为 其 基本 行为 
(Anderson, 1995), 

联想 有 一 种 或 两 种 形式 ; 自 联想 与 异 联想 。 在 自 联想 方式 中 ， 神 经 网 络 被 要 求 通过 不 断 出 
示 一 系列 模式 (向量) 给 网 络 而 存储 这 些 模式 。 其 后 将 某 已 存 模式 的 部 分 描述 或 畸变 RR) 
形式 出 示 给 网 络 ， 而 网 络 的 任务 就 是 检索 〈 回 忆 ) 出 已 存储 的 该 模式 。 异 联想 与 自 联想 的 不 同 
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之 处 就 在 于 一 个 任意 的 输入 模式 集合 与 为 一 个 输出 模式 集合 配对 。 自 联想 需要 使 用 无 监督 学 习 
方式 ， 而 异 联想 采用 监督 学 习 方 式 。 
设 x 表示 在 联想 记忆 中 的 关键 模式 〈 回 量 ) 而 y 表示 存储 模式 ( 同 量 )。 网 络 完成 的 模式 
联想 由 下 式 表 示 : 
X, > Y R= 1,2, 5g (32) 
其 中 g 是 存储 在 网 络 中 的 模式 数 。 关 键 模式 x 作为 输入 ,不 仅 决 定 存储 模式 y 的 存储 位 置 ， 
同时 也 拥有 人 恢复 该 模式 的 键 码 。 
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在 自 联 想 记忆 模式 中 :yi 二 xX%， 所 以 输入 输出 数据 的 空间 维 数 相 同 。 在 异 联 想 记 忆 模 式 


中 : y#x; 因此 ， 第 二 种 情况 的 输出 空间 维 数 可 能 与 输入 数据 空间 维 数 相 同 ， 也 可 能 不 同 。 

联想 记忆 模式 的 操作 一 般 包 括 两 个 阶段 : 

。 存储 阶段 ， 指 的 是 根据 式 (32) 对 网 络 进行 训练 。 

。 回忆 阶段 ， 网 络 根据 所 呈现 的 有 噪声 的 或 畸变 的 关键 模式 恢复 对 应 的 存储 模式 。 

SR HAD x 表示 关键 模式 x; 的 有 了 噪声 或 畸变 形 ”输入 
式 。 如 图 27 所 示 ， 这 个 刺激 产生 响应 (输出 ) y。 对 理想 的 ”向 量 x 一 
回忆 来 说 ， 我 们 有 y= 一 多 ， 其 中 Y 为 由 关键 模式 x) 联想 的 亿 
忆 模 式 。 如 果 对 =x 有 y 关 yy ， 就 说 联想 记忆 有 回忆 错误 。 O7 BARRA AS 

联想 记忆 中 存储 的 模式 数目 q 提供 网 络 存储 能 力 的 一 个 直接 度量 。 在 设计 联想 记忆 时 ， 问 
题 就 是 使 存储 能 力 g (表示 为 与 构建 网 络 的 神经 元 总 数 N 的 百分比 ) 尽量 大 ， 并 且 保 持 记 忆 中 
的 大 部 分 模式 能 正确 回忆 。 
模式 识别 

人 类 非常 擅长 模式 识别 。 通 过 感官 ， 我 们 可 以 从 周围 的 世界 接收 到 数据 ， 并 且 可 以 识别 出 
数据 源 。 我 们 往往 是 瞬间 完成 ， 儿 乎 毫 不 费力 。 例 如 ， 我 们 能 够 识别 出 任何 一 张 纸 悉 的 脸 ， 有 即 
使 我 们 和 这 个 人 已 经 多 年 未 曾 谋面 。 无 论 电 话 线路 如 何 差劲 ， 我 们 还 是 可 以 迅速 地 根据 他 或 着 
她 的 声音 很 快 地 甄别 出 你 的 熟人 。 仅 仅 闻 一 下 ， 就 能 分 辨 出 一 个 煮 鸡蛋 是 否 变 坏 。 人 类 是 通过 
学 习 过 程 来 成 功 地 实现 模式 识别 的 ， 神 经 网 络 也 是 如 此 ，。 

模式 识别 被 形式 地 定义 为 一 个 过 程 ， 由 这 个 过 程 将 接收 到 的 模式 或 信号 确定 为 一 些 指定 类 
别 中 的 一 个 类 。 神 经 网 络 要 实现 模式 识别 需要 先 经 过 一 个 训练 的 过 程 ， 在 此 过 程 中 网 络 需 要 不 
瞩 地 接受 一 个 模式 集合 以 及 每 个 特定 模式 所 属 的 类 别 ; 然后 ， 把 一 个 以 前 没有 见 过 但 属于 用 于 
训练 网 络 的 同一 模式 总 体 的 新 模式 呈现 给 神经 网 络 。 神 经 网 络 可 以 根据 从 训练 数据 中 提取 的 信 
息 识 别 特定 模式 的 类 别 。 神 经 网 络 的 模式 识别 本 质 上 是 基于 统计 特性 的 ， 各 个 模式 可 以 表示 成 
多 维 决策 空间 的 一 些 点 。 决 策 空 间 被 划分 为 不 同 的 区 域 ， 每 个 区 域 对 应 于 一 个 模式 类 。 决 策 边 


Sone are 向 By 











界 由 训练 过 程 决 定 。 我 们 可 以 根据 各 个 模式 类 内 部 以 及 它们 之 间 的 固有 可 变性 用 统计 方式 来 确 


KE IAF, o 

-一般 而 论 ， 采 用 神经 网 络 的 模式 识别 机 分 为 如 下 两 种 形式 : 

。 如 图 28a 的 混合 系统 所 示 ， 识 别 机 分 为 两 部 分 ， 用 来 作 特 征 提取 的 无 监督 网 络 和 作 分 
类 的 监督 网 络 。 这 种 方法 遵循 传统 的 统计 特性 模式 识别 方法 (Fukunaga, 1990; Duda 
等 ，2001; Theodoridis and Koutroumbas, 2003). 用 概念 术语 来 表示 ， 一 个 模式 是 一 
个 m 维 的 可 观测 的 数据 ， 即 m 维 观 测 〈 数 据 ) 空间 集中 的 一 个 点 x。 如 图 28b 所 示 ， 
特征 提取 被 描述 为 一 个 变换 ， 它 将 点 x 映射 成 一 个 g 维特 征 空间 相对 应 的 中 间 扣 YC 
m) 。 这 种 变换 可 看 作 是 维 数 缩减 〈 即 数据 压缩 )， 这 种 做 法 主要 是 基于 简化 分 类 任务 
的 考虑 。 分 类 本 身 可 描述 为 一 个 变换 ， 它 将 中 间 点 y 映射 为 7 维 决策 空间 上 的 一 个 类 ， 
其 中 +r 是 要 区 分 的 类 别 数 。 
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© 识别 机 设计 成 一 个 采用 监督 学 习 算 法 的 前 馈 网 络 。 在 这 第 二 个 方法 中 ， 特 征 提 取 由 网 
络 隐藏 层 中 的 计算 单元 执行 。 


特征 
HEY, 
















用 于 特征 
提取 的 无 
监督 网 络 


输入 模式 x Coo 





a) 





加 维 观测 空 问 94 维 特征 空间 r 维 决策 空间 
b) 


图 28 模式 分 类 的 经 典 方法 图 解 
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d = f(x) (33) 
描述 的 一 个 非 线 性 输入 输出 映射 ， 其 中 向 量 x 是 输入 ， 回 量 d A. e E (PR OPC EH 
未 知 。 为 了 弥补 函数 f(*) 知 识 的 缺乏 ， 我 们 假定 有 如 下 的 带 标号 样 例 集合 : 

= (Rd (34) 
我 们 的 要 求 是 设计 一 个 神经 网 络 来 瘟 近 末 知 函数 f(*)， 使 由 网 络 实际 实现 的 描述 输入 -输出 映 
射 的 函数 F(,) 在 欧 几 里 得 距离 的 意义 下 与 f(*) 足 够 接近 ， 即 
| Fox) 一 f(x) || 过 ,对 于 所 有 的 x (35) 
其 中 e 是 一 个 很 小 的 正 数 。 假 定 训 练 集 了 的 样本 数目 N 足够 大 ， 神 经 网 络 也 有 适当 数目 的 目 由 
参数 ， 那 么 对 于 特定 的 任务 逼近 误差 = 应 当 是 足够 小 的 。 
在 这 里 ， 通 近 问 题 其 实 是 一 个 很 完整 的 监督 学 习 ， 其 中 x; 是 输入 向 量 ， 而 qd; CHAN Ig 
应 。 我 们 可 以 换 一 个 角度 思考 这 种 问题 ， 将 监督 学 习 看 成 是 一 个 通 近 问题 。 
神经 网 络 逼 近 一 个 未 知 输入 -输出 映射 的 能 力 可 以 从 两 个 重要 途径 加 以 利用 : 
1) 系统 办 识 。 令 式 (33) 描 述 一 个 未 知 无 记忆 多 输入 - 
多 输出 (multiple input-multiple output, MIMO) 系统 的 
输入 输出 关系 ; 所谓 “无 记忆 ”系统 ， 是 指 时 间 不 变 的 系 给 入 | 
统 。 然 后 利用 式 (34) 中 的 标定 的 样 例 集合 将 神经 网 络 作 为 ”向 量 EE 
系统 的 一 个 模型 进行 训练 。 假 定 y; 表示 神经 网 络 中 对 输入 
向 量 x 产生 的 实际 输出 。 正 如 图 29 所 示 ， 在 dC x 相 
对 应 的 期 望 响应 ) 与 输出 之 间 产 生 一 个 误差 信 叶 e， 这 
个 误差 信号 接着 用 来 调节 网 络 的 自由 参数 ， 最终 使 未 知 系 J Ln 
统 的 输出 和 神经 网 络 输出 在 整个 训练 集 了 上 的 平方 差 在 统 ”图 29 系统 辨识 方 框图 实现 辨识 的 
计 意 义 上 达到 最 小 。 神经 网 络 是 反馈 环 的 一 部 分 
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2) 逆 模 型 。 下 一 步 假 定 我 们 给 定 一 个 已 知 无 记忆 MIMO 系统 ， 其 输入 输出 关系 如 式 (33) 
所 示 。 在 这 种 情况 下 的 要 求 是 如 何 构造 一 个 道 模 型 ， 针 对 辕 量 d 产 生 回 量 x, WEAR BEAT: 
x 一 人 (Cd) (36) 
描述 ， 其 中 向 量 值 函数 fF 1() 表 示 f(*) 的 反 函 数 。 注 意 ，f™'() 不 是 了:) 的 倒数 ， 上 标 一 1 仅仅 
ERKA GME. EMERE HAP., EEK EOF. Amie il oe E 
MKA 六 :的 直接 公式 。 给 定 如 式 (34) 的 一 些 标定 样 例 集 ， 我 们 可 以 通过 采取 图 30 所 示 的 
方案 构造 一 个 神经 网 络 来 通 近 本 数 全 !()。 在 这 里 描述 的 情况 中 ，x Md; 的 作用 交换 了 位 置 : 
向 量 d 作为 输入 ， 向 量 x 作为 期 望 的 响应 。 假 定 误差 信号 向 量 e 表示 X% 与 神经 网 络 针对 d; 的 
实际 输出 y 之 间 的 差 。 与 系统 辨识 问题 类 似 ， 利 用 误差 信和 与 向量 来 调节 网 络 的 自由 参数 ， 最 
终 使 未 知道 系统 的 输出 和 神经 网 络 输 出 在 整个 训练 样 例 集 上 的 平方 差 在 统计 意义 上 达到 最 小 。 
特别 地 ， 逆 模型 是 比 系统 辨识 更 困难 的 学 习 任 务 ， 因 为 对 它 的 解 可 能 不 是 唯一 的 。 
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控制 

神经 网 络 可 以 完成 的 另外 一 个 学 习 任 务 是 对 设备 进行 控制 操作 。 设 备 是 指 一 个 过 程 或 者 是 
可 以 在 被 控 条 件 下 维持 运转 的 系统 的 一 个 关键 部 分 。 学 习 和 控制 相关 其 实 不 是 一 件 什 么 值得 大 
惊 小 怪 的 事情 ， 毕 竟 我 们 人 脑 就 是 一 个 计算 机 〈 即 信息 处 理 器 )， 作 为 整个 系统 的 输出 是 实际 
的 动作 。 在 控制 的 这 种 意义 下 ， 人 脑 就 是 一 个 活生生 的 例子 ， 它 证 明 可 以 建立 一 个 广义 控制 
器 ， 充 分 利用 并 行 分 布 式 硬件 ， 能 够 并 行 控制 成 千 上 万 的 制动器 (如 肌肉 神经 纤维 )， 能 够 处 
PEER CEE URS. 并且 可 以 在 长 期 计划 水 平 上 进行 优化 《Werbos，19927。 

考虑 如 图 31 所 示 的 反馈 控制 系统 。 该 系统 涉及 利用 被 控 设 备 的 单元 反馈 ， 即 设备 的 输出 直 
接 反馈 给 输入 。 因 此 设备 的 输出 y 减 去 从 外 部 信息 源 提供 的 参考 信号 9， 产生 误差 信号 。 并 将 之 
应 用 到 神经 控制 器 以 便 调节 它 的 自由 参数 。 控 制 器 的 主要 功能 就 是 为 设备 提供 相应 的 输入 ， 从 而 
使 它 的 输出 y 跟 踪 参 考 信 号 d。 换 句 话说 ， 就 是 控制 器 不 得 不 对 设备 的 输入 输出 行为 进行 转换 。 
误差 信号 设备 答 入 

设备 输出 


参 ie => Sone ah 控制 器 上 ays > T p 设备 E o : 
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图 31 上 反馈 控制 系统 方 框图 
我 们 注意 到 在 图 31 中 误差 信号 。 在 到 达 设 备 之 前 先 通过 神经 控制 器 。 结 果 ， 根 据 谍 差 一 
修正 学 习 算法 ， 为 了 实现 对 设备 自由 参数 的 调节 ， 我 们 必须 知道 Jacobi 4 p 
J = {om 
Ou; 
Hy 是 设备 输出 y 的 -- 个 元 素 ， 而 w ERBA u TER. ARH es y/u; 
对 于 不 同 的 &，j 依赖 于 设备 的 运行 点 ， 因 而 是 未 知 的 。 我 们 可 以 采用 下 面 两 种 方法 之 一 来 近 


(37) 
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Di} 


似 计算 该 偏 导 数 : 

D 间接 学 习 。 利 用 设备 的 实际 输入 -输出 测量 值 ， 首 先 构造 神经 网 络 模型 产生 一 -个 它 的 复 
制品 。 接 着 利用 这 个 复制 品 提供 Jacobi 矩阵 了 的 一 个 估计 值 。 随 之 把 构成 Jacobi RE J KNE 
数 用 于 误差 -修正 学 习 算 法 ， 以 便 计算 对 神经 控制 器 的 自由 参数 的 调节 (Nguyen and Vida 
1989; Suykens 4#, 1996; Widrow and Walach, 1996), 

2) RFJ., WEK oy./ou 的 符号 通常 是 知道 的 ， 而 且 在 设备 的 动态 区 域内 一 般 是 不 
变 的 。 这 意味 着 我 们 可 以 通过 各 自 的 符号 来 逼近 这 些 人 往 导 数 。 它 们 的 绝对 值 由 神经 控制 器 自由 
参数 的 一 种 分 布 式 表示 给 出 (Saerens and Soquet, 1991; Schiffman and Geffers，1993) 。 因 
此 ， 神 经 控制 器 能 够 直接 从 设备 学 习 如 何 调节 它 的 目 由 参数 。 
波束 形成 

波束 形成 是 用 来 区 分 目标 信号 篆 景 噪声 之 间 的 空间 性 质 的 。 用 于 实现 波 东 形成 的 设备 称 
为 波束 形成 器 Chemformer), 

波束 形成 适合 利用 于 比如 蝙蝠 回声 定位 听觉 系统 皮质 层 的 特征 映射 这 样 的 任务 (Suga, 
1990a; Simmons £, 1992), h We AY El E ce M h A TK GY A A], C frequency-modulated, 
FM) 声呐 信号 来 了 解 周围 环境 ， 然 后 利用 它 的 听觉 系统 (包括 一 对 耳 打 ) 集中 注意 于 它 的 猫 
物 《如 飞行 的 昆虫 )。 蝙 蝙 的 耳 条 提供 波束 形成 能 力 ， 听 觉 系 统 利 用 它 产 生 注意 选择 性 (atten- 
tional selectivity) 。 

BRIG Bo BATRA WAR, CRESES EER RR REM FRES 〈 如 人 为 
干扰 ) 出 现 的 情况 下 探测 和 跟踪 感 兴趣 的 目标 。 两 个 因素 使 这 个 任务 复杂 化 

目标 信号 源 目 未 知 的 方向 。 
。 干扰 信号 无 可 用 的 先 验 信息 。 
处 理 这 种 情况 的 一 种 方法 是 使 用 广义 旁 关 消除 器 (generalized sidelobe canceller, GSLC), 图 32 © 
示 的 是 它 的 方 框图 。 这 个 系统 由 以 下 组 件 组 成 (Griffiths and Jim, 1982; Haykin，2002) : 
。 一 个 天 线 元 阵列 ， 它 提供 对 空间 中 离散 点 上 被 观察 信号 取样 的 手段 。 
。 一 个 线性 组 合 器 ， 它 是 由 轩 定 权重 集合 { 凤 六 :定义 的 ， 其 输出 就 是 期 望 的 响应 。 这 个 线性 
组 合 器 的 作用 就 像 一 个 “空间 滤波 器 ”*”， 它 由 一 个 辐射 模式 刻画 〈 即 一 个 天 线 输 出 振幅 与 输 
人 信号 人 射 角 的 极 坐 标 图 ) 。 辐 射 模式 的 主办 指 向 规定 的 方向 。 因 此 GSLC 受 它 约束 而 产生 
一 个 无 畸变 的 响应 。 线 性 组 合 器 的 输出 记 为 dz ， 它 对 波束 形成 器 提供 期 望 的 啊 应 。 
。 一 个 信号 阻塞 给 阵 C.， 它 的 功能 是 删除 和 干扰， 这 种 干扰 是 通过 代表 线性 组 合 器 的 空间 


ZR PEHA ah 


u(n) 0 


u(n) o 
输入 
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图 32 J Coe RET GR a Ho HE 
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第 0 章 F 言 ， 


滤 泊 项 辐射 模式 的 劳 瓣 而 泄 沁 的 。 
。 一 个 具有 可 调 参 数 的 神经 网 络 ， 它 被 设计 成 能 适应 干扰 信号 的 统计 变化 。 
神经 网 络 自由 参数 的 调节 是 由 一 个 在 误差 信号 eC(n) 上 操作 的 误差 修正 学 习 算 法 完成 的 ， 
e(n) 由 线性 组 合 器 的 输出 d(n) 和 神经 网 络 的 实际 输出 y(2) 之 间 的 差 确定 。 从 而 GSLC 在 线性 
组 合 器 的 监督 下 操作 ， 线 性 组 合 器 担当 着 “教师 ”的 角色 。 作 为 普通 的 监督 学 习 时 ， 注 意 线 性 
组 合 器 是 在 神经 网 络 的 反馈 环 之 外 的 。 一 个 使 用 神经 网 络 来 学 习 的 波束 形成 器 称 为 神经 - 波 来 
EAZ (neuron-beamformer)。 这 类 学 习 机 可 归 入 注意 性 神经 计算 机 (attentional neurocom- 
puters) Hyl C(Hecht-Nielsen, 1990). 


0.10 ”结束 语 


在 本 导言 章节 中 ， 我 们 把 注意 力 集中 于 神经 网 络 ， 而 关于 神经 网 络 的 研究 是 由 人 脑 所 局 发 
的 。 神 经 网 络 的 一 个 突出 的 重要 性 质 是 “学 习 "”， 而 学 习 可 以 分 为 以 下 几 个 类 别 。 

D 监督 学 习 ， 通 过 最 小 化 感 兴趣 的 代价 函数 来 实现 特定 的 输入 -输出 映射 ， 需 要 提供 上 且 标 
或 者 期 望 的 啊 应 。 

2) 无 监督 学 习 ， 甚 执行 依赖 于 提供 网 络 在 自 组 织 方 式 下 学 习 所 需要 的 对 表示 质量 的 “和 尾 
务 独立 度量 ”。 
”3) 强化 学 习 ， 学 习 系 统 通过 持续 地 与 其 环境 的 交互 来 最 小 化 一 个 标量 性 能 指标 ， 丛 而 实 
现 输入 -输出 映射 。 

监督 学 习 依赖 于 带 标 号 样 例 〈labeled example) 的 训练 样本 ， 每 个 样 例 由 一 个 输入 信和 号 
(刺激 ) 以 及 相应 的 期 望 〈 目 标 ) 响应 组 成 。 实 际 上 ， 我 们 发 现 收集 带 标号 样 例 是 费时 而 多 中 
的 任务 ， 在 处 理 大 规模 学 习 问 题 时 尤其 如 此 。 因 而 我 们 发 现 带 标号 样 例 是 短缺 的 。 男 一 方面 ， 
无 监督 学 习 仅仅 依赖 于 无 标号 样 例 ， 样 例 仅 简单 地 由 输入 信号 或 者 刺激 组 成 ， 因 而 通常 无 标号 
样 例 的 供应 很 充分 。 根 据 这 样 的 事实 ， 另 一 种 学 习 的 分 支 引 起 了 广泛 的 兴趣 : 半 监 督学 习 。 半 
监督 学 习 的 训练 数据 采用 有 标号 和 无 标号 的 样 例 。 如 后 续 章 节 所 讨论 的 ， 半 监督 学 习 最 大 的 挑 
成 在 于 当 处 理 大 规模 模式 分 类 问题 时 如 何 设计 学 习 系 统 ， 使 其 运行 过 程 是 实际 可 行 的 。 

强化 学 习 处 于 监督 学 习 和 无 监督 学 习 之 间 。 它 通过 学 习 系 统 和 环境 之 间 的 持续 交互 而 工 
作 。 学 习 系 统 提供 行动 并 且 从 环境 对 该 行动 的 反应 中 学 习 。 例 如 ， 从 效果 上 讲 ， 监 督学 习 中 教 
师 的 角色 在 这 里 被 一 个 评价 值 所 取代 ， 而 这 个 评价 值 被 综合 进 了 机 器 学 习 中 。 


注释 和 参考 文献 


1. 神经 网 络 的 定义 来 自 Aleksander and Morton (1990). | 

2. 有 关 大 脑 计 算 方 面 可 读 性 的 材料 可 参看 Churchland and Sejnowski (1992). 更 详细 的 讲述 可 参看 Kandel 等 
(1991), Shepherd (1990), Kuffler 等 〈1984) 和 Freeman (1975). 

. 关于 尖峰 和 尖峰 神经 元 的 细节 可 参看 Rieke 等 〈1997) 。 关于 单个 神经 元 的 计算 和 信息 处 理 能 力 的 生物 物理 
学 观点 ， 可 参看 Koch (1999), 

. 关于 sigmoid 函数 和 相关 问题 的 全 面 叙述 可 参看 Mennon 等 (1996). 

5. logistic 函数 ， 或 更 精确 地 说 logistic 分 布 函数 ， 其 命名 来 自 见 于 大 量 文献 中 的 深奥 的 “logistic KE”. X 
用 适当 的 度量 单位 ， 假 定 所 有 的 增长 过 程 可 表示 为 logistic 分 布 函数 


F(t) = 


tw 


小 


odl 

1 十 ec 
其 中 :代表 时 间 ， a MP 为 常数 。 

6. 根据 Kuffler 等 (1984), “接受 域 ” (receptive field) 这 个 术语 最 早 是 由 Sherrington (1906) 创造 的 ， 并 被 
Hartline (1940) 重新 引入 。 在 视觉 系统 环境 下 ， 神 经 元 的 接受 域 是 指 视网膜 曲面 上 由 光 所 引起 的 神经 元 放 
电 的 限制 区 域 。 

7. 权 值 共享 技术 最 早 在 Rumelhart 等 (1986b) 中 描述 。 
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本 章 组 织 

感知 器 在 神经 网 络 发 展 的 历史 上 占据 着 特殊 位 置 它 是 第 一 个 从 算法 上 完整 描述 的 神经 网 
络 。 它 的 发 明 者 Rosenblatt 是 一 位 心理 学 家 。 在 20 世纪 60 年 代 和 70 年 代 ， 受 感知 器 的 启发 ， 
工程 师 、 物 理学 家 以 及 数学 家 们 纷纷 投身 于 神经 网 络 各 个 不 同方 面 的 研究 。 更 值得 一 提 的 十， 
尽管 在 1958 年 Rosenblatt 关于 感知 器 的 论文 就 首次 发 表 了 ， 感 知 咽 《以 本 章 所 讲述 的 最 基本 
形式 ) 在 今天 依然 是 有 效 的 。 
本 章 分 为 如 下 部 分 : 

1. 1 节 详 述 神经 网 络 的 形成 阶段 ， 追 溯 1943 年 McCulloch 和 Pitts 的 开创 性 工作 。 

1.2 节 介 绍 Rossenblatt 感知 器 的 最 基本 形式 。 然 后 在 1.3 节 讨 论 感知 器 收敛 定理 。 这 一 
定理 证 明了 当 感 知 器 作为 线性 可 分 模式 分 类 器 的 时 候 在 有 限 数目 时 间 步 下 是 收敛 的 。 

1.4 节 建立 高 斯 环境 下 感知 器 和 贝 叶 斯 分 类 器 之 间 的 关系 。 

1.5 节 通过 实验 来 说 明 感 知 器 的 模式 分 类 能 力 。 

1.6 节 引入 感知 器 代价 函数 ， 在 此 基础 上 展开 讨论 ， 为 推导 感知 器 收敛 定理 的 批量 版 本 
铺路 。 

本 章 以 1.7 节 的 总 结 和 讨论 作为 结束 。 


1.1 58 


在 神经 网 络 的 形成 阶段 (1943 一 1958) ， 一 些 研究 者 做 出 了 开拓 性 的 贡献 : 

。 McCulloch and Pitts (1943) 引入 神经 网 络 的 概念 作为 计算 工具 。 

。 Hebb (1949) 提出 自 组 织 学 习 的 第 一 个 规则 。 

。 Rosenblatt (1958) 提出 感知 器 作为 有 教师 学 习 ( 即 监督 学 习 ) 的 第 一 个 模型 。 

McCulloch-Pitts 关于 神经 网 络 的 论文 所 产生 的 重要 影响 在 导言 中 已 经 做 了 充分 前 述 。 
Hebb 学 习 的 概念 在 第 8 章 中 将 会 做 比较 详细 的 讨论 。 在 本 章 中 我 们 讨论 Rosenblatt 感知 器 。 

感知 器 是 用 于 线性 可 分 模式 〈 即 模式 分 别 位 于 超 平面 所 分 隔 开 的 两 边 ) 分 类 的 最 简单 的 神经 网 
络 模型 。 基 本 上 它 由 一 个 具有 可 调 突 触 权 值 和 偏 置 的 神经 元 组 成 。 用 来 调整 这 个 神经 网 络 中 自由 参 
数 的 算法 最 早出 现在 Rosenblatt (1958, 1962) 提出 的 用 于 其 脑 感 知 模型 的 一 个 学 习 过 程 中 。 事实 
E, Rosenblatt 证 明了 当 用 来 训练 感知 器 的 模式 (ED 取 自 两 个 线性 可 分 的 类 时 ， 感 知 器 算法 是 
收敛 的 ， 并 且 决 策 面 是 位 于 两 类 之 间 的 超 平面 。 算 法 的 收敛 性 证 明 称 为 感知 器 收敛 定理 。 

建立 在 一 个 神经 元 上 感知 器 的 模式 分 类 被 限制 为 只 能 完成 两 类 (假设) 的 模式 分 类 。 通 过 
扩展 感知 器 的 输出 (计算 ) 层 可 以 使 感知 器 包括 不 止 一 个 神经 元 ， 相 应 地 可 以 进行 多 于 两 类 的 
分 类 。 但 是 ， 只 有 这 些 类 是 线性 可 分 时 感知 器 才能 正常 工作 。 重 要 的 是 ， 当 感知 器 的 基本 理论 
用 于 模式 分 类 器 时 ， 只 需 考 虑 单个 神经 元 的 情况 。 将 这 个 理论 推广 到 多 个 神经 元 是 不 重要 的 。 


1.2 Reel ss 


Rosenblatt 感知 器 建立 在 一 个 非 线 性 神经 元 上 ， 即 神经 元 的 McCulloch-Pitts 模型 。 回忆 
下， 导言 里 讲 过 这 种 神经 元 模型 由 一 个 线性 组 合 器 和 随后 的 硬 限 幅 器 (执行 一 个 符号 函数 ) 
组 成 ， 如 图 1.1 Ara. 神经 元 模型 的 求 和 节点 计算 作用 于 突 触 上 的 输入 的 线性 组 合 ， 同 时 也 合 
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并 外 部 作用 的 偶 置 。 求 和 节点 计算 得 到 的 结果 ， 也 就 是 诱导 局 部 域 ， 被 作用 于 厨 限 幅 器 。 相 应 
地 ， 当 硬 限 幅 贺 输入 为 正 时 ， 神 经 元 输出 十 1， 反 
之 则 输出 一 1。 

在 图 1. 1 的 符号 流 图 模型 中 ， 感 知 器 的 突 触 权 


uv pe) 








值 记 为 TH 9 We attt Wan a 相应 地 ， VE FA OF BR A BS AY ——»-—_O- mR 得 出 + 
输入 记 为 zi ,xs，… ,xz 。 外 部 作用 偏 置 记 为 5。 从 幅 器 
这 个 模型 我 们 发 现 硬 限 幅 器 输入 或 神经 元 的 诱导 局 
部 域 是 图 1.1 感知 右 的 符号 流 图 
v= Yue: +6 Ge 


感知 器 的 目的 是 把 外 部 作用 刺激 zz ，…zw 正确 分 为 @ AS 两 类 。 分 类 规则 是 : 如 果 感 知 
做 输出 y 是 十 1 就 将 zza，…zw 表示 的 点 分 配给 类 所 ， 如 朱 感 知 郑 输出 7 是 一 1 则 分 配给 
类 人 。 
为 了 进一步 观察 模式 分 类 天 的 行为 ， 一 般 要 在 x; 

m 维 信 号 空间 中 男 出 决策 区 域 图 ， 这 个 空间 是 由 mm 
个 输入 变量 zj ,zx:,… ,zm 所 张 成 的 。 在 最 简单 的 感 
知 器 中 存在 被 一 个 超 平面 分 开 的 两 个 决策 区 域 ， 此 
超 平面 定义 为 








S wz: +b = 0 (1. 2) 


i=] 


对 两 个 输入 变量 2, 和 zsz 的 情形 已 在 图 1.2 中 做 了 
说 明 ， 图 中 的 决策 边界 是 直线 。 位 于 边界 线 上 方 的 
点 (ai, 2) PAGE 类 ,位 于 边界 线 下 方 的 扩 
(215 t.) 分 人 % 类 。 注 意 这 里 偏 置 5 的 作用 仅仅 








决策 边界 
是 把 决策 边界 从 原点 移 开 p wxi +w xX, +b=0 
感知 器 的 突 触 权 值 w ,wo，… ,rw 可 以 通过 多 
图 1.2 两 维 两 类 模式 分 类 问题 决策 边界 超 平 
次 迭代 来 调整 。 对 于 自 适 应 性 可 以 使 用 通称 为 感知 面 的 实例 (在 这 个 例子 中 超 平面 是 一 
器 收敛 算法 的 误差 修正 规则 ， 下 面 会 讨论 。 条 直线 ) 


1.3 感知 器 收敛 定理 


为 了 导出 感知 器 的 误差 修正 学 习 算法 ， 我 们 发 现 利 用 图 1. 3 中 的 修正 信号 流 图 更 方便 。 在 
这 个 与 图 1. 1 中 的 模型 等 价 的 模型 中 ， 偏 置 5(z) 被 固定 eH 
当 作 一 个 等 于 十 1 的 固定 输入 量 所 驱动 的 突 触 权 值 。 “fr。 
我 们 因此 定义 (m 十 1) X1 个 输入 向 量 





x(n) = [F Lox (n), x (N), Tn Cn) |" 输入 2 se 
这 里 表示 使 用 算法 时 的 迭代 步 数 。 相 应 地 定义 Wy, 
(m 十 1) XX1 个 权 值 向 量 “nO 线性 组 合 器 
win) = [b w Cn) ster (n) st s Wa Cn) |? 图 1.3 等 价 的 感知 器 信号 流 图 ; 为 清楚 起 见 省 
因此 ， 线 性 组 合 器 的 输出 可 以 写成 紧凑 形式 略 了 对 时 间 的 依赖 性 
vln) = yon) = wf (n) x(n) (1.3) 


这 里 ， 第 一 行 中 的 wo (W XT M F i 一 0， RI E b. 对 于 固定 的 M, 等 式 w X 一 0 在 以 XH, 9 Tz", 
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Xm 为 坐标 的 m 维 空间 中 〈 对 某 些 给 定 的 偏 置 ) 所 作 的 图 定义 了 一 个 超 平面 ， 它 就 是 两 个 不 同 
输入 类 之 间 的 决策 面 。 

为 了 使 感知 器 能 够 正确 地 工作 ，% Me 两 个 类 必须 是 线性 可 分 的 。 这 意味 着 待 分 类 模式 
必须 分 离 得 足够 开 以 保证 决策 平面 是 超 平面 。 这 个 要 求 对 两 维 感知 器 的 情形 如 图 1. 4 所 示 。 在 
图 1. 4a 中 两 个 类 6 He 分 离 得 足够 开 ， 使 得 我 们 能 画 一 个 超 平面 (在 此 例 中 是 一 条 直线 ) 作 
为 决策 边界 。 但是， 假如 允许 两 个 类 @ Me 靠 得 太 近 ， 如 图 1. 4b 所 示 ， 它 们 就 变 成 非 线性 可 
分 的 ， 这 种 情况 就 超出 了 感知 器 的 计算 能 力 。 


决策 边界 





a) b) 
图 1.4 a) 一 对 线性 可 分 离 模式 ; b) 一 对 非 线 性 可 分 离 模式 


假设 感知 右 的 输入 变量 来 源 于 两 个 线性 可 分 类 。 设 % 为 训练 向 量 x (1), x (2),，… 中 属 
FRE 的 向 量 所 组 成 的 子 集 ，%s 表示 训练 向 量 xz (1)，xz (2)，…: 属 于 类 % 的 向 量 所 组 成 的 子 
E., W MH 的 并 是 整个 训练 集 光 。 给 定向 量 集 X% 和 3%: 来 训练 分 类 器 ， 训 练 过 程 涉及 对 权 值 向 
E w 的 调整 使 得 两 个 类 %! Me 线性 可 分 。 也 就 是 说 ， 存 在 一 个 权 值 向 量 w 具有 以 下 性 质 

wx>0 对 属于 类 @ 的 每 个 输入 向 量 x 

wx<0 对 属于 类 和 @ 的 每 个 输入 向 量 x 
EARO. 4) 的 第 二 行 中 当 w x 二 0 时 我 们 随意 地 选择 输入 向 量 x 属于 类 人 。 给 定 训 练 向 量子 集 % 
Fld: ， 感 知 器 的 训练 问题 就 是 找到 一 个 权 值 向 量 w 满足 式 (1.4) 中 的 两 个 不 等 式 。 

使 基本 感知 融 的 权 值 癌 量 自 适 应 的 算法 现在 可 以 用 以 下 公式 来 表述 ， 

1. 假如 训练 集合 的 第 n PR x(n) 根据 算法 中 的 第 n 次 迭代 的 权 值 向 量 woo 能 正确 分 
类 ， 那 么 感知 融 的 权 值 回 量 按 下 述 规则 不 做 修改 : 

wntl)=wn) Bi wx) > OB x(n) BFR 


(1. 4) 


wont 1) = w(n) 假如 wix(n) <0 HL x(n) EHS = 
2. APU, RR Alas AAC EDA BAR HALA PRUE ATE : 
win+1) = wn) — ywx) 假如 WwW (n) x(n) > 0 A x(n) BT RE ae 


wint 1) = win) + y(n) x(n) ”假如 wi (mn) x(n) <0 A x(n) BT RE 

这 里 学 习 率 参数 y(n) 控制 着 第 n 次 迭代 中 作用 于 权 值 向 量 的 调节 。 

假如 y(n) = 二 wy0， 这 里 wy 是 与 迭代 次 数 n 无 关 的 常数 ， 我 们 有 一 个 感知 器 的 固定 增 量 自 送 
应 规则 (fixed-increment adaptation rule). 

接 下 来 首先 证 明 当 7 一 1 时 固定 增 量 自 适应 规则 的 收 钙 性 。 很 明显 7 的 具体 值 并 不 重要 ， 
只 要 它 是 正 的 。7 天 1 时 的 值 不 影响 模式 可 分 性 而 仅仅 改变 模式 网 量 的 大 小 。 对 于 可 变 ow 
情况 稍 后 考虑 。 

感知 器 收敛 定理 : 的 证 明 针 对 初始 条 件 w(0) 二 0。 假 设 对 n= 二 1,2,° w (nm) x(n) <0, Ai 
人 向 量 x(n) 属 于 子 集 %。 即 ， 因 为 式 (1.4) 的 第 二 个 的 条 件 不 满足 ， 感 知 器 就 不 能 正确 地 对 向 
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量 x(1) ，x(2) ，，… 进 行 分 类 。 在 常量 n(n) 二 1 的 情况 下 ， 可 以 利用 式 (1. 6) 的 第 二 行 ， 有 


win+1) 二 Wn) 十 xX(n) oH x(n) BF BO (1.7) 
给 定 初始 条 件 w(0) 王 0， 可 以 选 代 求 解 这 个 关于 wn 十 1) 的 方程 而 得 到 结果 
win +1) = x(1) + x€2) + = + x(n) (1. 8) 


因为 假设 类 % 和 % 为 线性 可 分 的 ， 因 此 对 属于 子 集 %i 的 向 量 x(1),… x(n) 的 不 等 式 方程 w x 
(n) 之 0 存在 一 个 解 w,。。 对 固定 解 w， 可 以 定义 一 个 正 数 a, 


a = min w x(n) (1.9) 
xn) © a, 


此 ， 在 式 (1. SPF elt wo RIA 
wiwlan +1) = wix(1) + we x(2) + 4 we x(n) 
所 以 ， 依 据 等 式 (1.9) 中 的 定义 ， 我 们 有 
w wln t 1) > na (1. 10) 

下 面 利 用 众所周知 的 Cauchy-Schwarz PEA. 给 定 两 个 向 量 w, Al w(a 十 1)，Cauchy-Schbwarz 
不 等 式 表述 为 

lwo ll? lwat D |? S> [wwa DY (1.11) 
这 里 上， 中 表示 所 包含 变 元 向 量 的 欧 几 里 得 范 数 ， 内 积 wiwit DERE., AAC. 10) 得 到 
[w wint D] 大 于 或 等 于 rn?a*。 从 式 (1.11) 我 们 注意 到 lw, |2 ll went] ?大 于 或 等 于 
[wiwat D]. RERA 

| we ||? || wat Dl S nra 


或 等 价 地 有 
| win +1) ||? > ot Lok ; (1. 12) 
下 面 我 们 遵循 另 一 种 发 展 路 线 。 特 别 地 ， 可 以 把 式 (1. 7) 改 写 为 如 下 形式 
wik+1) =wth)4+ xh), 一 1 和 Mi， X(k) € Kı (1.13) 
通过 对 式 (1. 13) 两 边 同 取 欧 几 里 得 范 数 的 平方 ， 得 到 
lwGCRE 二 1 一 wGe) |]? + I] xc I? 十 2w7 (k)xCk) (1. 14) 


(AEE, wih) x(h) <0, AA St. 14) 中 得 到 
| wR +1) |]? < |} wR) I}? + x II 


或 等 价 于 
| wR+1) |]? — ll] wee) |? < | xe) | ?, R= laren (1.15) 
fat b= 1 情况 下 的 这 些 不 等 式 相 加 ， 结 合 所 假设 的 初始 条 件 w(0) 一 0， 我 们 得 到 不 等 式 
wont Dd I< Si xce le <p (1. 16) 


这 里 8 是 一 个 正 数 ， 定 义 为 
B= max || x(k) II" (1.17) 
式 (1.16) 表 明 权 值 向 量 w(z 十 1) 的 欧 几 里 得 时 范 数 平方 的 增长 至 多 只 4 能 和 和 迭代 次 数 寺 是 线性 关系 。 
当 寻 有 足够 大 的 值 时 ， 式 (1. 16) 的 第 二 个 结 结果 显然 与 式 (1. 12) 的 结果 相 了 矛盾 。 实 际 上 ， 我 
Manin KEATEN n.. Ën SERO 12) 和 式 (1. 16) 的 等 号 都 成 立 。 这 里 ，now 是 
下 面 方程 的 解 : 


2 2 
M maxa 


wee ee 
给 定 解 向 量 w,， 解 出 nr， 我 们 求 出 
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2 
Nmax = elw. il” (1. 18) 


这 样 我 们 证 明了 对 所 有 的 n，w(n) 二 1， 且 w(0) 二 0， 如 果 解 向 量 w, 存在 ， 那 么 感知 器 权 值 的 适 
应 过 程 最 多 在 nw 次 迄 代 后 终止 。 从 式 (1.9)、(1.17) 和 (1 18) 注意 到 w, 或 ms 的 解 并 不 唯一 。 
现在 可 以 叙述 感知 器 的 固定 增 量 收 敛 定 理 (Rosenblatt, 1962); 


设 训练 向 量 的 子 集 3， P 是 线性 可 分 的 ， 感 知 器 的 输入 来 自 这 两 个 子 集 。 感 知 器 在 no 次 
迁 代 后 在 如 下 意义 下 收 货 : 
w(n,) = win, +1) = win, +2) 一 
是 对 Mm Stax 8 — A AB DE 


下 面 考虑 当 y(n) 变化 时 ， 单 层 感 知 器 自 适应 的 绝对 误差 修正 过 程 。 特 别 地 ， 设 wy(n) 是 

满足 下 式 的 最 小 整数 ， 
nx (n)x(n) > |w" (mn) x(n) | 

利用 这 个 过 程 我 们 发 现 如 果 第 n BGR RIT AN WO x FER SR, 那么 第 n 十 1 KE 
代 中 w7(z 十 1)x(C2) 符 号 就 会 是 正确 的 。 这 说 明 如 果 在 第 ”次 迭代 w Cn)xCn) 有 符号 错误 ， 可 
以 通过 设 x(n 十 1) 二 x(n) 来 改变 第 n 十 1 KBR AUK. RA, ARTA RS HE 
现 给 感知 器 直到 模式 被 正确 分 类 。 

注意 当 w(0) 的 初始 值 不 为 零 时 ,仅仅 是 导致 收敛 需要 的 迭代 次 数 或 增加 或 减少 ， 这 依赖 
于 w(0) 与 解 wo 的 相关 程度 。 无 论 w(0) 的 值 是 多 少 ， 感 知 髓 都 可 以 保证 是 收敛 的 。 

在 表 1. 1 中 我 们 对 感知 器 收敛 算法 做 出 概述 〈Lippmann，1987) 。 在 此 表 第 三 步 计算 感知 
给 的 实际 响应 中 使 用 的 记号 sgn(*)， 表 示 符 号 函数 (signum function); 

+1 wRv>o0 


= (1.19) 
sgn(v) _] wRve—o 
这 样 可 以 把 感知 器 的 量化 响应 y(n) 表 示 为 以 下 的 简洁 形式 : 
y(n) = sgnLw’ (n)x(n) | (1. 20) 


表 1.1 感知 器 收敛 算法 概述 


x(n) = m+1 维 输入 向 量 
= [F Lori (nd v2) ,Tn Cn) IF 
win) = m+ 1 维权 值 向 量 
= [hyw (A) r tw A) atts Wm (C72) ]T 
b= RE 
y(n) 一 实际 响应 (量化 的 ) 
d(n) = 期 望 哆 应 
i 学 习 率 参数 ,一 个 比 1 小 的 正常 数 
1. 初始 化 。 设 w(0) 一 0。 对 时 间 步 4 二 1，2，… 执 行 下 列 计算 。 
2 激活。 在 时 间 步 n， 通 过 提供 连续 值 输入 向 量 x(n) 和 期 望 响应 d CO) AE RA R A AN o 
3. 计算 实际 响应 。 计 算 感 知 回 的 实际 响应 : 
y(n) = sgn[w Cn) x(n) | 
这 里 sgn(*) 是 符号 函数 。 
A 权 值 向 量 的 自 适 应 。 更 新 感知 器 的 权 值 向量 : 
wln t1) = wn) + yd(n) — y(n) jx(n) 
这 里 
十 1 若 x(ln) 属于 类 把 


din) = 
á fie 若 x(n) 属于 类 4 


5. 继续 。 时 间 步 4 增加 1， 返 回 第 2 步 。 
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注意 输入 向 量 x(n) 是 (m 十 1) X1 向 量 ， 它 的 第 一 个 元 素 在 整个 计算 中 国定 为 十 1。 相 应 
i, PUA wo) (m 十 1) X1 向 量 ， 它 的 第 一 个 元 素 等 于 人 篇 置 2。 表 1. 1 中 的 男 一 个 要 所 
是 : 我 们 引入 一 个 量化 期 望 响应 din), BRA 

+] #x(n) BT #4 
dln) = -1 $x) BERG (1. 21) 
因此 ， 权 值 回 量 wen) 的 自 适 应 是 以 误差 修正 学 习 规 则 Cerror-correction learning rule) 形式 
下 的 累加 : 
wint 1) = win) + gld im) — yln) |x(n) (1:22) 
这 里 7 是 学 习 率 参数 ， 差 da 一 y>(2) 起 误差 信号 的 作用 。 学 习 率 参数 是 正常 数 ， 且 0 二 7 委 1。 
当 在 这 个 区 间 里 给 ， 赋 一 个 值 时 ， 必 须 记 住 两 个 互相 冲突 的 需求 (Lippmann, 1987): 
。 平均 ， 过 去 输入 的 平均 值 提供 一 个 稳定 的 权 值 估计 ， 这 需要 一 个 较 小 的 7。 
。 快速 自 适应 ， 相 对 于 产生 输入 向 量 x 的 过 程 的 固有 分 布 的 实时 变化 ， 快 速 自 适 应 需要 
绞 大 的 e 


1. 4 ”高 斯 环境 下 感知 器 与 贝 叶 斯 分 类 器 的 关系 


感知 器 与 一 类 通称 为 贝 叶 斯 分 类 器 的 经 典 模式 分 类 器 具有 一 定 联 系 。 在 高 斯 环境 下 ， 贝 叶 
斯 分 类 器 退化 为 线性 分 类 器 。 这 与 感知 器 采用 的 形式 是 一 样 的 。 但 是 ， 感 知 器 的 线性 特性 并 不 
是 由 于 高 斯 假设 而 具有 的 。 这 一 节 我 们 研究 这 种 联系 ， 并 借 此 深入 研究 感知 器 的 运行 。 首 先 简 
单 复习 一 下 贝 叶 斯 分 类 带 。 

NUR PES 

在 贝 叶 斯 分 类 器 和 贝 叶 斯 假设 检验 过 程 中 ， 我 们 最 小 化 平均 风险 GLAAD). 。 对 两 类 问题 
( 记 为 类 % MAS), Van Trees (1968) 定义 的 平均 风险 为 : 

OR =enps| px(x | dx + cor P| bx (x | @ ) dx 
: (1. 23) 
二 | px(x|@ Ydx cpa] 和 axl@)dx 


这 里 各 项 的 定义 如 下 : 
b 一 观察 向 量 x( 表 示 随 机 向 量 和 的 实现 值 ) 取 自 子 空间 % 的 先 验 概率 ， 
x Ei=1,2b ptp =. 
c =~4RG 是 真实 的 类 ( 即 观 察 向 量 工 是 取 自 子 空间 交 ;) 时 决策 为 由 
子 空间 RW; RRM KG 的 代价 , (i,7) = 1,2. 
pxCx | 8) =M Ala E X 的 条 件 概 率 密 度 函 数 ,假设 观察 向 量 X 取 自 子 空间 %i， 
pe 142; 
式 (1.23) 右 边 的 头 两 项 表示 正确 决策 〈 即 正确 分 类 )， 后 面 两 项 代表 不 正确 决策 《〈 即 错误 分 
类 ) 。 每 个 决策 通过 两 个 因子 乘积 加 权 : 作出 决策 的 代价 和 发 生 的 相对 频率 〈 即 先 验 概率 )。 
我 们 的 目的 是 确定 一 个 最 小 化 平均 风险 的 策略 。 因为 需要 作出 这 样 的 决策 ， 在 全 部 观察 空 
间 % 中 每 个 观察 向 量 x 必须 被 设 定 或 者 属于 MATA. 因此 
X = X +A: (1. 24) 
相应 地 ， 可 以 把 式 (1. 23) 改 写 为 等 价 的 形式 : 
R =cup | px (x [€,)dx + cz bo | p px (x |@)dx 
£ A-E (1. 25) 
teap] n pale dx cipal, px (x |% ) dx 


fo 
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这 里 ey <en H css<cs。 现 在 注意 到 下 述 事 实 ， 
| ,pxCxl@ dx= | paled = 1 (1. 26) 
因此 ， 式 (1.25) 简 化 为 : 
R= cu Pit cube +| Cr Cc — ca) px (xl) — pi Cea — en) pxCx|@) ldx (1.27) 


AA. 27) 右 边 的 头 两 项 代表 一 个 固定 代价 。 因 为 需要 最 小 化 平均 风险 多 ,我 们 从 式 (1. 27) 得 到 
以 下 最 优 分 类 的 策略 : 

1. FARRAR MATES BRAD) 为 负 的 观察 向 量 z 的 值 都 归于 子 空间 多 ( 即 
类 % )， 因 为 此 时 积分 对 风险 负 有 一 个 负 的 贡献 。 

2. 所 有 使 被 积 函 数 为 正 的 观察 向 量 x 的 值 都 必须 从 子 空间 %&, 中 排除 〈 即 分 配给 类 局 ) ， 因 
为 此 时 积分 对 风险 多 有 一 个 正 的 贡献 。 

3. 使 被 积 函数 为 零 的 z 的 值 对 平均 风险 胸 没 有 影响 ， 因 此 可 以 任意 分 配 。 假 设 这 些 点 分 配 
ATTE: B8). 

在 这 个 基础 上 ， 写 出 贝 叶 斯 分 类 器 公式 : 

假如 条 件 

Pi Cca — C11) Px (XI) > pe Cow — cz) px (x | ) 
HL, LR Sx PRAT EA, PÆ). SMGex PHAM (PKS). 


为 了 简化 起 见 ， 定 义 





px (xX |@) 
PARP ==" ele) (1. 28) 
和 
— 如 (ca — C2) 
$ Pi (C2) SOG) Cl. 29) 


E A(Cx) 是 两 个 条 件 概率 密度 函数 的 比 ， 被 称 为 似 然 比 〈likelihood ratio), wf € KARI H Bl 
值 。 注 意 A(x) 和 & 都 是 恒 正 的 。 根 据 这 两 个 量 ， 可 以 把 贝 叶 斯 分 类 重新 表述 为 ， 


假如 对 一 个 观 肾 向量 xX， 其 似 然 比 A(x) 比 阅 值 EE 大， 就 把 多 分 配给 类 ， 反 之， 分 配给 类 。 


图 1. 5a 是 一 个 描绘 贝 叶 期 分 类 上 改 的 模块 图 。 此 模块 图 的 要 点 是 两 方面 的 : 
1. 进行 贝 叶 斯 分 类 器 设计 的 数据 处 理 被 完全 限制 在 似 然 比 A(Cz) 的 计算 中 。 
2. 此 计算 与 分 配给 先 验 概 率 的 值 和 决策 过 程 中 的 代价 是 完全 无 关 的 。 这 两 个 量 仅 仪 影响 靖 值 E. 





输入 向 量 A WRAS, 
x EEE | 似 然 比 计算 机 比较 器 hi woe 
给 类 %， 
J logé, 
ire 
PA, 分 配 x 





logé 
b) 


图 1.5 WY rape ee PS OPTRA: a) 似 然 比 检验 ;b) 对 数 似 然 比 检验 
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从 计算 的 观点 来 看 ,我 们 发 现 使 用 似 然 比 的 对 数 比 使 用 似 然 比 自身 方便 得 多 。 人 允许 这 样 做 
有 天 个 理由 。 首 先 ， 对 数 是 单调 函数 。 其 次 ， 似 然 比 A(x) 和 阐 值 8 都 是 正 的 。 因 此 ， 贝 叶 斯 
分 类 器 可 以 用 如 图 1. 5b 所 示 的 等 价 形式 来 实现 。 很 显然 ， 第 二 个 图 中 媒人 的 检验 被 称 为 对 数 
似 然 比 检验 。 
高 斯 分 布下 的 贝 叶 斯 分 类 器 
| 现在 考虑 一 个 在 高 斯 分 布下 两 类 问题 的 特殊 情形 。 随 机 向 量 X OK X BOK, 
还 是 %， 但 XX 的 协 方 差 阵 对 两 类 都 是 一 样 的 。 也 就 是 说 : 
#€: ELX] 一 H 
ELCKX—pid(X—p)?7]=C 
Ke: EX] — Pe 
ELCK— pr )(X—pd7]=C 
协 方差 和 矩阵 C 是 非 对 角 的 ， 这 意味 着 取 自 类 %@ AKG 的 样本 是 相关 的 。 假 设 C 是非 奇 异 的 ， 
这 样 它 的 道德 阵 C 存在 。 
在 这 个 背景 下 可 以 把 X 的 条件 概率 密度 泪 数 表示 为 多 变量 高 斯 分 布 : 
1 


二 二 i= 
px (X|@) = EEC 7 OK pad wd),i=1,2 (1.80) 
这 里 om 是 观察 向 量 x 的 维 数 。 
1. 两 类 %! 和 % 的 概率 相同 : 
pA =p. = 5 (1. 31) 
2. 错误 分 类 造成 同样 的 代价 ， 正 确 分 类 的 代价 为 零 ， 
C2) 一 C12 和 Cy = Cz = 0 (1. 32) 


我 们 现在 有 了 对 两 类 问题 设计 贝 叶 斯 分 类 器 的 信息 。 具 体 地 讲 ， 将 式 (1. 30) 代 入 式 (1. 28) 
并 取 自 然 对 数 ， 我 们 得 到 GEA): 


log A(x) S— Cx pC Cx ) TC Cx) 


(1. 33) 
= (pg ~ p) C x+ FC p — pi Cp) 
把 式 (1. 31) 和 式 (1. 32) 代 人 式 (1.29) 并 取 自 然 对 数 ， 得 到 
logé = 0 Ci 34) 
AO. 33) 和 和 式 (1. 34? 表 明 当 前 问题 的 贝 叶 斯 分 类 器 是 线性 分 类 器 ， 如 关系 式 
yew x+S (1. 35) 
所 示 ， 这 里 
y = logACx) C1. 36) 
w= Cl (pa — p) (1. 37) 
b= Z FC u — pip) (1. 38) 


更 进一步 ， 分 类 器 由 一 个 权 值 向 量 w ARE > 的 线性 组 合 Riy 


器 构成 ， 如 图 1.6 所 示 。 
ER. 35) 的 基础 上 ， 可 以 拒 对 两 类 问题 的 对 数 似 然 
比 检验 描述 如 下 : 7 图 1.6 高 斯 分 类 器 的 信号 流 图 
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假如 线性 组 合 器 (包括 偏 置 6) 的 输出 是 正 的 ， 把 观察 向 量 X 分 配给 类 @@ 。 否 则 ， 把 它 分 
配给 类 。 


这 里 描述 的 高 斯 环境 下 贝 叶 斯 分 类 器 的 运行 与 感知 器 是 类 似 的 ， 因 为 它们 都 是 线性 分 类 
器 ;请 见 式 (1. DAMEA. 35)。 但 是 ， 在 它们 之 间 还 存在 一 些 需 要 仔细 检查 的 细微 而 重要 的 区 
别 (Lippmann, 1987): 

。 感知 器 运行 的 前 提 是 待 分 模式 是 线性 可 分 的 。 导 出 贝 叶 斯 分 类 器 过 程 中 所 假设 的 两 个 
高 斯 分 布 的 模式 当然 是 互相 重 晤 的 ， 因 此 它们 不 是 可 分 的 。 重 要 的 程度 是 由 均值 同 量 
u Alp, 以 及 协 方差 矩阵 C 所 决定 。 重 全 的 性 质 如 图 1.7 所 示 ， 这 是 一 个 随机 标量 的 
特殊 情况 〈 即 维 数 m=1). SRAM AREA ORR ERENT PR. ERA ot 
We Oe FE Se HE Lia, AO PS fad Pe A FY RE R eH 。 

。 由 叶 斯 分 类 器 最 小 化 分 类 误差 的 概率 。 这 个 最 小 化 与 高 斯 分 布下 两 类 之 间 的 重合 无 关 。 
例如 ， 存 图 1.7 的 特例 中 ， 贝 叶 斯 分 类 使 决策 边界 总 是 位 于 高 斯 分 布下 两 类 % AG 的 
ELE- 

。 RARER FARA, KAERA ATHA D MERRE. CHUKERE 
来 运行 ， 这 些 误差 出 现在 分 布 重 琶 的 地 方 。 当 输入 由 非 线 性 物理 机 制 产生 同时 它们 的 
分 布 是 严重 偏离 而 且 非 高 斯 分 布 的 时 候 ， 算 法 将 可 能 工作 得 很 好 。 相 反 ， 贝 叶 斯 分 头 
器 是 参数 化 的 ; 它 的 导出 是 建立 在 决策 边界 
高 斯 分 布 的 假设 上 的 ， 这 可 能 会 限 
AE RNE H y H 

。 感知 器 收敛 算法 是 自 适应 的 且 实 现 fae) /1 D 
简单 ; 它 的 存储 需求 仅 限于 权 值 集 
合 和 偏 置 。 另 一 方面 ， 贝 叶 斯 分 类 
器 设计 是 固定 的 ; 可 以 使 它 变 成 目 
适应 的 , 但 代价 是 增加 存储 量 和 更 














高 的 计算 复杂 性 。 eo 
图 1.7 PRB HE or 
1.5 计算 机 实验 : 模式 分 类 | 
本 计算 机 实验 的 目的 包括 两 个 方面 ， 


1) 给 出 双 月 分 类 问题 的 详细 说 明 ， 这 一 问题 将 成 为 本 书 处 理 模式 分 类 实验 部 分 的 基本 原型 ; 
2) 说 明 Rosenblatt 感知 器 算法 对 线性 可 分 模式 正确 分 类 的 能 力 ， 并 说 明 当 线性 可 分 性 个 
满足 时 Rosenblatt 感知 器 会 前 省。 
分 类 问题 详细 说 明 
图 1.8 给 出 了 一 对 非 对 称 的 面对面 的 “月 亮 ”。 被 标志 为 “区 域 A” 的 月 亮 是 关于 y - 轴 对 
称 的 ， 而 被 标志 为 “区 域 B” 的 月 亮 被 安置 在 y - 轴 右 边 距 离 半 径 r 以 及 xz - 轴 下 面 距离 4 的 地 
方 。 这 两 个 月 亮 具 有 相同 的 参数 : 
每 个 月 亮 的 半径 ,r = 10 
每 个 月 亮 的 宽度 ,w= 二 6 
将 两 个 月 亮 分 开 的 垂直 距离 d 是 可 调 的 ， 它 是 根据 z - 轴 来 测量 的 ， 如 图 1. 8 Bra. 
。 增加 4d 的 正 值 意味 着 增加 两 个 月 亮 之 间 相 互 分 离 ; 
。 增加 乙 的 负 值 意味 着 两 个 月 亮 会 相互 靠近 。 
训练 样本 集 9 是 由 1000 对 数据 点 所 组 成 ， 每 对 数据 点 的 其 中 一 个 是 取 自 区 域 A， 另 一 个 取 月 
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区 域 B， 两 者 都 是 随机 选取 的 。 测 试 样本 集 是 由 2 000 对 数据 点 组 成 的 ， 也 是 以 随机 方式 选取 的 。 


Y 








图 1.8 双 月 分 类 问题 
实验 

这 里 的 实验 所 要 采用 的 感知 器 参数 如 下 所 示 : 

输入 层 大 小 = 2 

AX E ee A/S m = 20 

B= 50; 参 照 式 (1. 17) 
学 习 率 参数 7 线性 地 从 107 下降 到 10°”, 

权重 被 初始 化 为 0。 

图 1.9 给 出 了 d=1 时 的 实验 结果 ， 这 相应 于 具有 良好 线性 可 分 性 的 情况 。 图 1. 9a 是 学 习 曲 线 ， 
描画 了 均 方 误差 (MSE) 和 迭代 次 数 之 间 的 关系 ; 该 图 显示 出 经 过 三 步 迭 代 算 法 就 收敛 了 。 图 1. 9b 
画 出 了 经 感知 器 算法 训练 后 计算 得 到 的 决策 边界 ， 展 示 了 对 2 000 个 测试 点 良好 的 可 分 离 性 。 
距离 二 1， 半 径 二 10， 宽 二 6 时 利用 感知 器 进行 分 类 





0.06 } 
10 
0.05 
5 
0.04 > 
i > 0 
0.03 A 
S 
0.02 -sL 
0.01 46 
% 10 20 30 40 50 -0 + of Ss w Is 20 
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图 1.9 ”在 距离 d=1 时 解 双 月 集合 的 感知 器 : a) 学 习 曲 线 ; bD 测试 结果 
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在 图 1. 10 中 ， 两 个 月 亮 之 间 的 分 离 度 被 设 为 a 二 一 4， 这 个 条 件 破坏 了 线性 可 分 离 性 。 图 














1. 10a 给 出 了 学 习 曲 线 ， 从 学 习 曲 线 的 波动 性 可 知 感知 器 算法 会 持续 波动 ， 意 味 着 算法 的 骨 
沉 。 这 一 结果 也 从 图 1. 10b 的 图 中 得 到 了 验证 ， 其 决策 边界 (通过 训练 得 到 的 ) 和 两 个 月 亮相 
交 ， 其 误 识 别 率 为 (186/2 000) X100%=9.3%, 
0.6 距离 一-4， 半 径 =10， 宽 =6 时 利用 感知 器 进行 分 类 
0.58 wW 
8 
0.56 
6 
0.54 4 
S Si 2 ie 
= 0.52 og 
‘ =, 
0.5 = 
A 
0.48 & 
0.46 1 ee | -8 ee 
“6 10 20 30 40 50 er 0 5 10 15 20 
KARIR ¥ 
a) b) 


图 1.10 在 中 离 4 一 一 4 时 解 双 月 集合 的 感知 器 : a) 学 习 曲 线 ，b) 测试 结果 


1.6 批量 感知 器 算法 


K 1.1 所 总 结 的 感知 器 收敛 算法 的 推导 没有 考虑 代价 函数 。 而 且 ， 这 一 推导 集中 于 单 样本 
修正 。 本 节 我 们 将 做 如 下 两 件 事 : 
1. 介绍 感知 器 代价 函数 的 广义 形式 。 
2. 利用 代价 函数 来 构成 感知 器 收敛 算法 的 批量 版 本 。 
我 们 想到 的 代价 函数 是 允许 应 用 梯度 搜索 的 消 数 。 具 体 而 言 ， 我 们 定义 如 下 的 感知 器 代价 
By Hh 
Jow) = >) wx) (1. 39) 


xE 


其 中 多 是 利用 w ESRA m ERR A as TA ER x 的 集合 (Duda 等 ，2001)。 如 果 所 有 
样本 都 被 正确 识别 ， 那 么 吧 为 空 ， 这 种 情况 下 代价 函数 JCw) 为 0。 无 论 如 何 ， 代 价 函 数 J Cw) 
的 一 个 优异 特点 是 这 一 函数 是 关于 权 值 向 量 w 可 微 的 。 因 而 将 CW ow 微分 可 以 产生 梯度 
向 量 : 











VJ(w) = >) (x) (1. 40) 
xe Y 
其 中 梯度 算 子 为 : 
一 一 9 9 eae ð d 
v= 2.2, =o | (1.41) 


在 最 速 下 降 法 中 ， 算 法 的 每 一 个 时 间 步 对 权 值 向 量 w 的 修正 都 是 在 梯度 向 量 Y J(Cw) 的 反方 向 
作用 的 。 相 应 地 ， 算 法 具有 如 下 的 形式 : 
wnt1) = wln) — nn VI Cw) = wn) + nn) >) x (1.42) 


xE 


这 包括 了 感知 器 收敛 算法 的 单 样本 修正 版 本 作为 其 特殊 情况 。 而 且 ， 式 (1. 42) 包 含 了 给 定 样 本 


wwaibbt.com P0O000000 





第 1% Rosenblatt 感知 器 .39 


集 x(1)，x(2) ，… 来 计算 权 值 向 量 的 批量 感知 器 算法 。 特 别 地 ， 在 时 间 步 x 十 1 Ae 
修正 是 通过 根据 权 值 向 量 w(z) 而 误 识别 的 所 有 样本 的 和 而 来 的 ， 而 这 个 和 经 由 学 习 率 参数 
n(n) 的 调整 。 这 一 算法 被 称 为 “批量 ”是 由 于 在 算法 的 每 一 个 时 间 步 ， 一 批 误 识 别 样 本 被 用 来 
计算 权 值 向 量 的 修正 。 


1.7 小 结 和 讨论 


感知 器 是 一 个 单 层 神经 网 络 ， 其 操作 是 基于 误差 修正 学 习 的 。 术 语 “ 单 层 ” 用 在 这 里 是 为 
了 表示 网 络 计算 层 是 由 单个 神经 元 组 成 的 用 于 解决 两 类 的 分 类 问题 。 模式 分 类 的 学 习 过 程 需要 
经 过 一 定 次 数 的 迭代 然后 终止 。 然 而 ， 为 了 成 功 实现 分 类 ， 这 些 模式 必须 是 线性 可 分 的 。 

感知 器 的 神经 元 使 用 MeCulioch-Pitts 模型 。 我 们 很 容易 提出 这 样 一 个 问题 : 如 果 用 一 个 
sigmoid 型 非 线 性 限制 代替 硬 限 幅 器 ， 感 知 器 会 不 会 有 更 好 的 表现 ? 结果 是 不 管 我 们 使 用 看 限 
岂 还 是 软 限 幅 作为 神经 元 模型 中 的 非 线 性 源 ， 感 知 器 稳定 状态 的 决策 特征 基本 不 变 “Shynk， 
1990; Shynk and Bershad，1991)。 因 此 我 们 可 以 正式 地 说 只 要 限制 为 由 线性 组 合 器 和 随后 一 
个 非 线 性 元 素 组 成 的 神经 元 模型 ， 不 管 非 线性 使 用 什么 形式 ， 一 个 单 层 感知 器 都 只 能 在 线性 可 
分 模式 上 进行 模式 分 类 。 

对 于 Rosenblatt 感知 器 的 第 一 个 真正 的 批评 是 由 Minsky and Selfridge (1961) 提出 的 。 
Minsky 和 Selfridge 指出 ，Rosenblatt 定义 的 感知 器 甚至 都 不 能 推广 到 二 进 制 数 的 奇偶 校 验 对 
的 情况 ， 更 不 用 说 完成 一 般 的 抽象 。Rosenblatt 感知 器 的 计算 局 限 后 来 又 在 Minsky 和 Papert 
的 名 著 《 感 知 器 》 中 得 到 了 严格 的 数学 证 明 〈1969 ,1988) 。 在 给 出 一 些 出 色 的 和 非常 详细 的 对 
感知 器 的 数学 分 析 以 后 ，Minsky 和 Papert 证 明 ， 建立 在 局 部 学 习 例 子 基础 上 的 Rosenblatt 感 
知 器 从 本 质 上 无 法 进行 全 局 的 泛 化 。 在 他 们 著作 的 最 后 一 草 ， Minsky 和 Papert 推测 他 们 发 现 
的 Rosenblatt 感知 器 的 局 限 性 对 它 的 变形 更 具体 说 是 多 层 神 经 网 络 也 是 成 立 的 。 下 文摘 录 
自 他 们 著作 (1969) 的 第 13. 2 节 : 


RE (甚至 因为 !) 它 具 有 严重 的 局 限 性 ， 感 知 器 仍然 展示 了 其 自身 的 研究 价值 。 它 有 很 
多 值得 注意 的 特点 ; 它 的 线性 性 ; 它 迷 人 的 学 习 理 论 ; 它 清楚 地 作为 一 类 并 行 计算 范例 的 简单 
性 。 没 有 任何 理由 认为 多 层 感 知 器 仍然 具有 这 些 优点 。 靠 直 党 判断 向 多 层 系统 推广 是 不 会 有 好 
结果 的 ， 然 而 ， 证明 (或 否定 ) 这 一 点 仍 是 一 个 很 重要 的 需要 研究 的 问题 。 


这 个 结论 在 很 大 程度 上 导致 了 一 直 持续 到 20 世纪 80 年 代 中 期 的 对 不 仅 是 感知 器 也 包 拓 一 
般 神经 网 络 计算 能 力 的 严重 怀疑 。 

但 是 历史 已 经 证 明 ，Minsky 和 Papert 作出 的 推测 似乎 是 不 太公 正 的 ， 因 为 我 们 现在 已 经 
有 很 多 神经 网 络 和 机 器 学 习 的 高 级 形式 ， 它 们 的 计算 能 力 比 Rosenblatt 感知 器 强 得 多 。 例 如 ， 
第 4 章 讨 论 的 反 向 传播 算法 训练 的 多 层 感知 器 ， 第 5 章 讨论 的 径 向 基 范 数 网 络 ,第 6 章 讨 论 的 
支持 向 量 机 等 ， 都 以 它们 各 自 的 方法 克服 了 单 层 感 知 器 的 计算 局 限 性 。 

在 结束 关于 感知 器 的 讨论 时 ， 我 们 可 以 断定 感知 器 是 一 个 用 来 对 线性 可 分 模式 进行 分 头 的 
精致 的 神经 网 络 。 其 重要 性 不 仅仅 在 于 其 历史 价值， 也 在 于 其 在 线性 可 分 模式 分 类 方面 的 实际 
价值 。 


注释 和 参考 文献 


1 Rosenblatt 预想 的 原始 感知 器 模型 的 网 络 组 织 (1962) 有 三 种 类 型 的 单元 ; 感知 单元 、 联 想 单元 和 响应 单 
元 ， 感 知 单元 和 联想 单元 之 间 的 连接 有 固定 的 权 值 ， 而 联想 单元 和 响应 单元 之 间 的 连接 具有 变化 的 权 值 。 
联想 单元 被 设计 成 一 个 从 环境 输入 中 抽取 模式 的 预 处 理 器 。 就 仅 关 心 可 变 权 值 而 论 ，Rosenblatt 的 原始 感 
知 器 的 运行 与 只 有 一 个 响应 单元 〈 即 单个 神经 元 ) 的 情况 是 基本 一 致 的 。 
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2. 第 1.3 节 关 于 感知 器 收敛 算法 的 证 明 尊 循 Nilsson (1965) 的 经 典 图 书 。 
习题 


1.1 
1.2 


1.4 


1.5 


证 明 总 结 感知 器 收敛 算法 的 式 (1. 19) 至 式 (1. 22) 是 与 式 (1.5) 和 式 (1.6) 一 致 的 。 
假设 图 1. 1 中 的 感知 莫 信 叶 流 图 的 便 限 幅 器 被 如 下 的 sigmoid 非 线 性 函数 所 替代 : 
olv) = tanh( =) 
RE v ES ERASE RRR OE: 
如 果 输 出 yoeMmMAa sexe TRE,. 2E ERRA; AZ, x&TFRE. 
证 明 如 此 构造 的 决策 边界 是 一 个 超 平面 。 
(a) 感知 器 可 以 用 来 执行 很 多 人 返 辑 函数 。 说 明 它 对 二 进 制 逻辑 蛆 数 与 (AND).、 或 (OR) 和 非 (COM- 
PLEMENT) 的 实现 过 程 。 
Cb) 感知 器 的 一 个 基本 局 限 是 不 能 执行 异 或 (EXCLUSIVE OR) 函数 。 解 释 造 成 这 个 局 限 的 原因 。 
考虑 两 个 一 维 高 斯 分 布 类 @@ 和 ， 它 们 的 方差 都 为 1。 它 们 的 均值 为 
H: 一 一 10 
Hz =+ 10 
这 两 个 类 本 质 上 是 线性 可 分 的 。 设 计 一 个 分 类 器 来 分 离 这 两 个 类 。 
式 (1.37) 和 式 (1.38) 定 义 员 叶 斯 分 类 髓 在 高 斯 环境 下 的 权 值 回 量 和 偏 置 。 当 协 方 差 矩 阵 C 由 
C=.'!l 
定义 时 ， 求 此 分 类 器 的 构成 。 这 里 呈 是 常数 ， 工 是 单位 矩阵 。 


计算 机 实验 


1. 6 


重复 1. 5 节 的 计算 机 实验 ， 但 是 这 一 次 将 图 1. 8 的 两 个 月 亮 放 到 分 隔 边界 处 ， 即 4 二 0。 计 算 在 2 000 个 
测试 数据 点 上 由 算法 产生 的 误 识 别 率 ， 
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Neural Networks and Learning Machines, 3E 
通过 回归 建立 模型 


本 章 组 织 
本 章 的 主题 是 如 何 应 用 线性 同 归 这 一 函数 还 逝 的 特殊 形式 对 给 定 的 随机 变量 集合 建 模 。 
本 章 的 组 织 如 下 : 
2.1 节 是 引言 ，2.2 节 通 过 描述 线性 回归 模型 的 数学 框架 建立 本 章 余下 部 分 的 基础 。 
2.3 节 导出 线性 回归 模型 参数 向 量 的 最 大 后 验 (maximum a posteriori, MAP) 估计 。 
2, 4 节 是 利用 最 小 二 乘法 处 理 参数 估计 问题 ， 并 讨论 这 一 方法 和 员 叶 斯 方法 之 间 的 关系 。 
2.5 节 再 次 讨论 第 1 章 中 讨论 过 的 模式 分 类 实验 ， 这 一 次 利用 最 小 二 乘法 。 
2.6 节 讨 论 模 型 阶 的 选择 问题 。 
2.7 节 讨 论 参 数 估计 中 固定 样本 容量 的 推论 ， 包 括 偏 置 -方差 困境 。 
2.8 节 介 绍 用 工具 变量 (instrumental variable) 概念 来 处 理 变 量 误差 Cerrors-in-variables) 
问题 。 
最 后 是 2.9 节 的 小 结 和 讨论 。 
2.1 引言 


建 模 的 思想 在 需要 处 理 统计 数据 分 析 的 每 一 个 学 科 中 都 很 有 用 。 人 例如， 假设 给 定 一 个 随机 
变量 集 ， 要 完成 的 任务 是 找到 可 能 存在 于 这 些 变量 之 间 的 关系 ， 如 果 这 种 关系 存在 的 话 。 作 为 
函数 逼近 的 一 种 特殊 形式 ， 回 归 的 典型 方案 如 下 : 

。 对 随机 变量 中 的 一 个 变量 有 着 特别 的 兴趣 ; 这 一 随机 变量 被 称 为 依赖 变量 ,或 者 响应 

(response). 

。 剩 下 的 随机 变量 称 为 独立 变量 ， 或 者 回归 量 (regressor)。 它 们 的 作用 是 用 来 解释 或 者 
预测 啊 应 的 统计 行为 。 
响应 对 回归 量 的 依赖 还 包括 一 个 附加 的 误差 项 ， 用 来 说 明 在 对 依赖 程度 公式 化 时 候 的 
不 确定 性 ; 误差 项 称 为 期 望 误差 (expectational error) 或 解释 误差 (explanational er- 
ror)， 这 两 个 称呼 是 可 以 相互 替换 的 。 

这 样 的 模型 称 为 回归 模型 (regression model) 。 

回归 模型 有 两 类 : 线性 回归 模型 和 非 线 性 回归 模型 。 在 线性 回归 模型 中 ， 响 应 对 回归 量 的 
依赖 是 通过 线性 函数 定义 的 ， 这 使 得 其 统计 分 析 从 数学 上 来 说 是 易 处 理 的 。 男 一 方面 ， 和 在 非 线 
性 回归 模型 中 ， 依 赖 性 是 由 非 线 性 函数 定义 的 ， 因 而 其 数学 分 析 过 程 是 困难 的 。 本 章 将 注意 力 
集中 于 线性 回归 模型 。 在 后 续 章 节 中 将 学 习 非 线性 回归 模型 。 

本 章 对 线性 回归 模型 在 数学 上 的 易 处 理性 是 通过 两 个 途径 来 说 明 的 。 首 先 ， 我 们 利用 贝 叶 
斯 理论 2 来 推导 线性 回归 模型 参数 向 量 的 最 大 后 验 估计 。 然 后 ， 使 用 另 一 个 称 为 最 小 二 乘法 的 
方法 来 解决 参数 估计 问题 ;而 这 一 方法 是 由 高 斯 在 19 世纪 早期 导出 的 。 接 着 我 们 说 明 在 高 斯 
环境 这 一 特殊 情况 下 这 两 个 方法 之 间 的 等 价 性 。 


2.2 线性 回归 模型 : 初步 考虑 


eR] 2. 1a 所 示 的 情况 ， 这 里 主要 关注 未 知 随 机 环境 (unknown stochastic environ- 
ment) 。 通 过 应 用 一 组 输入 来 探究 这 一 环境 ， 构 成 回归 量 ，; 


x = (x1 9X2 ee ane C2. 1) 
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其 中 上 标 表示 矩阵 的 转 置 。 环 境 的 输出 结果 用 d 来 表示 ， 构 成 了 相应 的 响应 ， 而 响应 被 假 
设 为 标量 ,这 仪 是 为 了 表述 的 方便 。 通 常 ， 我们 不 知道 响应 4 和 回归 量 x 之 间 的 函数 依赖 关 
系 ， 因 而 我 们 提出 一 个 线性 回归 模型 ， 参 数 化 为 : 


d= Sow, +e 232) 


其 中 wy wy yee pty 定义 一 组 辕 定 的 但 未 知 的 参数 ， 意味 着 环境 是 稳定 的 (stationary). 附加 
项 s 表示 模型 的 期 望 误 差 ， 表 明 对 环境 的 未 知 量 。 图 2. 1b 是 关于 式 (2. 2) 所 描述 模型 的 输入 - 
输出 行为 的 信和 号 流 图 。 








回归 量 
X 











M E p -o MZAA 


E 
期 望 误差 
a) b) 


图 2.1 a) 未 知 稳定 随机 环境 ;b) 环境 的 线性 回归 模型 
利用 矩阵 记号 ， 将 式 (2. 2) 重 写 为 下 面 的 紧凑 形式 ， 


d=wixte (2.3) 
其 中 回归 量 x 由 式 (2. 1) 中 的 元 素来 定义 。 相 应 地 ， 参 数 向 量 W 定 义 为 
w = Lw,.t22, wml’ (2. 4) 


其 维 数 和 回归 量 x 的 维 数 相同 ; 这 一 共同 的 维 数 称 为 模型 阶 (model order), ER wx EMA 
量 w 和 x 的 内 积 。 

由 于 是 随机 环境 ， 回 归 量 x、 响应 4 以 及 期 望 误 差 e 是 相应 的 随机 回 量 X、 随 机 变量 DY 
及 随机 变量 E 的 样本 值 〈 即 单 点 实现 ) 。 有 了 这 些 随机 集 作 为 背景 ， 感 兴趣 的 问题 可 以 像 下 面 
X EF TARR : 

给 定 回 归 量 祥和 相应 的 响应 的 联合 统计 量 ， 估 计 未 知 的 参数 向 量 W。 


我 们 这 里 所 说 的 联合 统计 量 是 指 下 面 的 统计 参数 集合 : 

。 EMKE X 的 相关 矩阵 

。 期 望 响应 DD 的 方差 

。 UAE X 和 期 望 响 应 D 的 互相 关 向 量 

假设 X Al D 的 均值 都 为 0。 

第 1 音 中 讨论 了 员 叶 斯 推论 的 一 个 用 于 模式 分 类 的 重要 方面 。 本 章 将 讨论 贝 叶 斯 推论 的 力 
一 个 用 于 参数 估计 的 方面 。 


2.3 参数 向 量 的 最 大 后 验 估计 
贝 叶 斯 方法 提供 了 对 式 (2. 3) 的 线性 回归 模型 中 参数 向 量 w 的 选择 过 程 中 的 非 确定 性 进行 
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量化 的 一 种 高 效 方法 。 关 于 这 一 线性 回归 模型 ， 应 注意 以 下 两 点 : 

1. MAHR XZH MR” HAE, MAAE w 没有 任何 关系 。 

2. 关于 未 知 参 数 向 量 W 的 信息 仅仅 包含 在 期 望 响应 D 中 ， 而 期 望 啊 应 D 扮演 着 环境 “可 
观测 量 ” 的 角色 。 

相应 地 ， 我 们 的 注意 力 集 中 于 W 和 了 的 联合 概率 分 布 密度 函数 ，X 为 条 件 。 

将 密度 函数 记 为 pw.plxCw,4d1x)。 由 概率 理论 ， 我们 知道 密度 函数 可 以 表示 为 : 


Pwon|xCw,ad|x) = pw|pD,x wld,x)ppld) (2:5) 
也 可 以 将 之 表达 为 等 价 形式 : 
pw.p|xCwsd |x) = po| w.x(d | w»x) pw Cw) (2.6) 


根据 这 两 个 等 式 ， 可 以 得 到 : 
pp|wx(d|w,x)pw(wW) 
pold) 

其 中 pp(4) 关 0。 式 (2.7) 是 贝 叶 斯 定理 的 特殊 形式 ; EPER T 4RR WP rm. 

]. 观测 密度 (observation density): ARRAS HF EE pay Po|w.x(d|w.x), 表示 给 定 
参数 向 量 w， 由 回归 量 x 对 环境 响应 d 的 “观测 ”。 

2. $ (prior): 这 代表 概率 密度 函数 pw (w) ， 表 示 先 验 于 环境 观测 量 的 参数 向 量 w 的 信 
息 。 此 后 ， 先 验 被 简单 地 记 为 nw). 

3. 后 验 密度 (posterior density)， 这 代表 条 件 概 率 密度 函数 pw | pb.x(w|d,x)， 表 不 对 环境 
的 观测 完成 之 后 的 参数 向 量 w。 此 后 ， 后 验 密度 记 为 xCw|a,x)。 作 为 条 件 的 啊 应 -回归 对 Cx, 
d 是 “观测 模型 ”>， 包 括 由 回归 量 x 得 到 的 环境 的 啊 应 a. 

4. 证 据 (evidence)， 这 代表 概率 密度 函数 bp(d)， 表 示 用 于 统计 分 析 的 包含 于 啊 应 4d 中 
的 “信息 ”。 

观测 密度 po|w.x《d1w,X) 在 数学 上 通常 以 似 然 函数 的 形式 来 表示 ， EXN: 

lCw\dsx) = pplwx(d |wW,x) (2.8) 

而 且 ， 在 所 关心 的 参数 向 量 w 的 估计 的 范围 内 ， 在 式 (2. 7) 右 边 的 证 据 项 pro ONMPRA a 
一 化 常量 的 角色 。 于 是 ， 可 以 用 如 下 语句 来 描述 式 (2,7): 


参数 化 回归 模型 的 向 量 w 的 后 验 密 度 与 似 然 台 数 及 先 验 之 间 的 积 成 正比 。 


pw|px wld,x) = (2. 7) 


if 
n(w\|d,x) cc l(w]d,x)x(w) (2.9) 
其 中 符号 cc 表示 正比 。 

似 然 函 数 LCw|ad,x)， 从 其 自身 考虑 ， 提 供 了 对 于 参数 向 量 w 的 最 大 似 然 (ML) 估计 ， 如 
FAMAJ: 

Wu. = arg max L(w|d,x) (2. 10) 

然而 ， 对 于 参数 向 量 w 的 更 深层 次 的 估计 ， 考 虑 后 验 密度 xC(w|a,x)。 具 体 来 说 ， 我 们 通 
过 下 式 来 定义 参数 向 量 w 的 最 大 后 验 CMAP) 估计 ， 

Whar = arg max n(w|d,x) (211) 
我 们 说 MAP 估计 器 是 比 ML 估计 器 更 深层 次 的 估计 ， 这 是 基于 如 下 两 个 原因 : 

1， 用 于 参数 估计 的 贝 叶 斯 范式 ， 是 根植 于 式 (2.7) 所 示 的 贝 叶 斯 定理 ， 并 通过 式 42. 11) 的 
MAP 估计 器 证 明 的 ， 它 采用 了 关于 参数 向 量 w 的 所 有 可 能 信息 。 与 之 相反 ， 式 (2. 10) 的 ML 
估计 器 基于 贝 叶 斯 范式 的 极端 (fringe)， 忽 略 了 先 验 信息 。 

2. ML 估计 器 仅仅 依赖 于 观测 模型 〈d,x) ， 因 而 可 能 导致 非 唯一 解 。 为 了 加 强 解 的 唯一 性 
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和 稳定 性 ， 先 验 x(w) 必 须 被 合并 到 估计 器 的 规划 中 ， 这 正 是 MAP 估计 器 要 做 的 。 
当然 ， 应 用 MAP 估计 响 的 难点 在 于 如 何 找到 合适 的 先 验 信息 ， 这 使 得 MAP 比 ML 需要 
更 多 的 计算 量 。 
”以 下 是 最 后 的 讨论 。 从 计算 的 角度 讲 ， 我 们 发 现 往 往 采 用 后 验 密度 的 对 数 会 比 直接 采用 后 
验 密度 要 方便 。 而 对 数 是 关于 其 自 变 量 的 单调 递增 函数 ， 因 而 允许 我 们 采取 这 一 方案 。 相 应 
地 ， 可 以 将 MAP 估计 器 写成 如 下 所 期 望 的 形式 ， 


Waar = arg max log(n(w|d>x)) C2.172) 
其 中 log 表示 上 自然 对 数 。 对 于 ML Fatt aR PY AR HK 
高 斯 环境 下 的 参数 估计 
令 x Ald; 表示 应 用 于 环境 的 回归 量 和 结果 响应 ， 相 对 应 于 作用 于 环境 的 第 i ne 
这 一 试验 重复 NK. 然后 将 可 用 于 参数 估计 的 训练 样本 表示 为 ， 
9 ery en (2. 13) 


为 了 实现 参数 估计 任务 ， 我 们 做 如 下 假设 : 

假设 1: 统计 独立 与 同 分 布 

构成 训练 样本 的 N 个 样 例 是 统计 独立 与 同 分 布 的 (independent and identically distribu- 
ted, iid), 

假设 2: 高 斯 性 

产生 训练 样本 了 的 环 境 服从 高 斯 分 布 。 

更 具体 来 说 ， 式 (2.3) 中 的 线性 回归 模型 的 期 望 误 差 由 均值 为 0 及 共同 方差 为 6 的 高 斯 密 

ERARE, FAT: 


mers ep (= 2) P50 AN (2.14) 





假设 3: 稳定 性 

环境 是 稳定 的 ， 这 意味 着 在 全 部 N 次 试验 中 参数 向 量 pou 但 是 未 知 的 。 

更 具体 来 说 ， 权 值 向 量 w 的 M 个 元 素 被 假设 为 iid 的 ， 每 一 个 元 素 由 均值 为 0 及 共同 方差 
为 吧 的 高 斯 密度 函数 所 决定 。 因 而 可 以 将 参数 癌 量 w 的 第 & 个 元 家 的 先 验 表示 为 


1 w 
aai k), k=1.,2,,M (2.15) 
ae Fc ad 
对 作用 于 环境 的 第 i 次 试验 重 写 式 (2.3)， 我 们 有 
d; = wx; te, i=1,2,…,N (2.16) 


其 中 di, x; fle, DIENER D, MIAE X ANE EA A CB AKE 
现 )。 
令 F 定 义 统计 期 望 算 子 。 根 据 假设 2， 我 们 有 





E[E,] =0, 对 于 所 有 的 : QP 
和 
var E; J = HE] =o, 对 于 所 有 的 1 (2.18) 
根据 式 (2. 16) ， 对 于 给 定 的 回归 量 x;， 
EL D:] = wx, i1=1,2,°°,N (2.19) 
var[D;] = E(D; — ELD; D7] = ELE? ] = o? (2. 20) 
然后 根据 假设 2 的 高 斯 含义 ， 由 式 (2. 14)， RARE i KIE IA RRA 
= ] _ 1 有 i= sae i 
(wld: X;) = zzl zz (4 WwW Xi ) J 1,230 N (2. 21) 
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然后 ， 由 假设 1， 对 于 环境 的 N 次 试验 具有 iid 特性 ,我 们 将 试验 中 所 有 的 似 然 函数 表 





l(wld.x) = [iwla = = rae = JI exp(- zld —w"x,)*) 


xp(— pp Dd — wx”) (2.22) 





1 
(Ema) 
这 表示 包含 于 式 (2.13) 中 的 训练 样本 了 的 关于 权 值 向 量 w 的 全 部 试验 知识 。 
仅 剩 的 需要 考虑 的 另 一 个 信息 源 是 包含 于 先 验 xCw) 中 的 信息 。 根 据 式 (2. 15) 描 述 的 w 的 
第 & 个 元 素 的 0 - 芍 值 高 新 特 性 ， en ee ene 我 们 有 


iw) = [[ xu oe ple i 
= rol zrei) = 7 ee sr lwl?) (22a 
AP | wi ERAS AW ae w 的 欧 几 里 得 范 数 ， 
| wl] = (Sat) (2. 24) 
因而 ， 将 式 (2. 22) 和 式 (2. 23) 代 入 式 (2. 9)， 然 后 简化 其 结果 ， 得 到 后 验 密度 ， 
wha cc exp] — ab $) (di wx)? = abe wl | (2. 25) 


现在 可 以 应 用 式 (2. 12) 的 MAP 公式 来 解决 手头 的 估计 问题 。 共 体 来 说 ， 将 式 (2.25) 代 人 这 
公式 ， 我 们 有 


ep EE max| — > >) (di — wx)? — 4 | w | | (2, 26) 
其 中 引入 了 一 个 新 的 参数 ， 


和 一气 (2. 27) 
MEEL RAA: 

Bon) = Ea, wer + A w (2. 28) 
显然 ， 最 大 化 式 (2. 26) 中 相应 于 w 的 参数 等 价 于 最 小 化 二 次 函数 轨 w)。 相 应 地 ， 最 优 估计 


Waar AY LA a ORE PR BE Cw) RT w 微分 并 令 其 结果 为 0 来 获得 。 这 样 ， 可 以 获得 如 下 的 MX1 参 
数 向 量 的 期 望 MAP 估计 : 
Wuar (CN) = [R,.€N) +All) Ur, (CN) (2. 29) 
这 里 引入 了 两 个 矩阵 和 一 个 向 量 。 
1. 回归 量 x 的 时 间 平 均 MX M KHER, Pate 


R,,(N) 一 一 > Dx (2. 30) 


= 


其 中 xx 是 回归 量 x; Al x; 的 外 积 ， 应 用 于 环境 的 第 ; 和 第 7 次 试验 。 
2. MXM 的 单位 算 阵 TI， 其 M 个 对 角 元 素 为 1， 其 他 元 素 为 0。 
3. 回归 量 x 和 期 望 响 应 d 的 时 间 平 均 MX1 互 相关 向 量 ， 由 下 式 定义 


Bz CN) =— Dx. (2. 31) 


FAZER... CN) Ma CN) FS EE EF 练 样本 9 的 所 有 N 个 样 例 上 的 平均 ， 因而 这 里 使 用 了 术语 
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“时 间 平 均 ”。 
假设 我 们 给 方差 o& 分 配 一 个 大 的 值 ， 这 样 做 的 隐 含 效果 是 参数 向 量 w 的 每 个 元 素 的 先 验 

分 布 ， 在 可 能 的 取 值 范围 和 内， 从 本 质 上 来 说 是 一 致 的 。 在 这 一 条 件 下 ， 参数 4 实质 上 是 0,， 式 
(2. 29) 退 化 为 ML 估计 : 

Wai (N) 一 有 CN) Be CN) (2. 32) 
这 支持 我 们 早先 提出 的 观点 ， ML 估计 器 仅仅 依赖 于 以 训练 样本 了 为 示例 的 观测 模型 ， 从 线性 
回归 的 统计 学 的 观点 而 言 ， 方 程 

R, CN) War (N) = fa (N) (2. 33) 
通常 称 为 法 方程 (normal equation), ML 估计 ww 当然 是 该 方程 的 解 。 另 一 个 感 兴 趣 的 话题 是 
ML 估计 器 是 无 偏 估计 器 ， 对 于 一 个 无 限 大 的 训练 样本 集 F， 我 们 发 现 从 极限 角度 来 说 ， 如 果 
回归 量 x(x) 和 啊 应 4(n) 是 从 联合 遍历 过 程 (jointly ergodic processes) 中 取得 的 ， 那 么 ww 收 
伍 于 未 知 随 机 环境 的 参数 向 量 w。 这 时 候 时 间 平 均 可 以 用 总 体 平 均 来 代替 。 在 这 一 条 件 下 ， 习 
题 4 中 证 明了 

limit WuL(N) =W 

作为 对 比 ， 式 (2. 29) 所 示 的 MAP 估计 器 是 有 偏 估 计 器 ， 因 而 提醒 我 们 做 出 如 下 陈述 : 


通过 利用 正则 化 〈 即 引入 先 验 知 识 ) 来 改进 最 大 似 然 估计 器 的 稳定 性 ， 其 最 大 后 验 估计 器 
的 结果 是 有 偏 的 。 


简单 来 说 ， 在 稳定 性 和 偏差 之 间 需 要 做 出 一 个 权衡 。 
2.4 正则 最 小 二 乘 估 计 和 MAP 估计 之 间 的 关系 
我 们 可 以 通过 另 一 条 途径 来 估计 参数 向量 w， 即 关注 代价 函数 锣 (Cw)， 该 杯 数 定 义 为 对 环 
境 的 N 次 试验 的 期 望 误差 的 平方 和 。 具 体 来 说 ， 我 们 令 
E(w) = Sew 


其 中 我 们 已 经 将 w 作为 6; 的 自 变量 来 强调 这 样 的 事实 ， 即 回归 模型 的 不 确定 性 是 由 向 量 I 
起 的 。 重 新 组 织 式 (2. 16) 中 的 各 项 ， 我 们 有 


gc; Cw) = d; — w'x;; 1 = 1 2 (2. 34) 
将 这 一 等 式 代 入 贸 (Cw) 的 表达 式 中 得 到 
ae ee 言 (4 二 (2. 35) 


这 仅仅 依赖 于 训练 样本 集 g。 对 w 最 小 化 代价 函数 将 产生 一 般 最 小 二 乘 估计 器 Cordinary least- 
squares estimator) 的 规则 ， 和 式 (2. 32) 的 最 大 似 然 估 计 是 等 价 的 ， 因 而 ， 明 显 有 得 到 缺乏 唯 
一 性 和 稳定 性 解 的 可 能 性 。 | 
为 了 克服 这 一 严重 问题 ， 习 惯 的 做 法 是 通过 增加 如 下 新 的 项 对 式 (2. 35) 定 义 的 代价 隆 数 进 
THE: l . 
Ew = 多 (WwW) + 人 | wl = > > Cd; —w"x,)? +4 |] wl? (2. 36) 
这 一 表达 式 等 价 于 由 式 (2. 28) 定 义 的 函数 。 其 中 包含 的 欧 几 里 得 范 数 的 平方 | wl’? 称 为 结构 
正则 化 〈structural regularization)。 相 应 地 ， 标 量 4 称 为 正则 化 参数 (regularization parame- 


ter), 


当 4 二 0 时 ， 意 味 着 我 们 对 于 由 训练 样本 集 了 所 例证 的 观测 模型 有 完全 的 信心 。 另 一 种 极端 
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情况 是 二 coo， 意味 着 我 们 对 于 观测 模型 没有 信心 。 实 际 上 ， 正 则 化 参数 在 这 两 个 极端 情况 
之 间作 出 选择 。 

在 多 数 情况 下 ， 对 于 预先 给 定 的 正则 化 参数 4， 正则 最 小 二 乘法 的 解 是 通过 最 小 化 式 
(2. 36) 定 义 的 关于 参数 向 量 w 的 正则 代价 函数 而 得 到 的 ， 它 等 价 于 式 (2. 29) 的 MAP 估计 。 这 
个 解 称 为 正则 最 小 二 乘 解 (regularized least-squares (RLS) solution), 


2.5 计算 机 实验 : 模式 分 类 


本 节 中 ， 我 们 重复 在 第 1 章 中 学 习 过 的 模式 分 类 问题 的 计算 机 实验 ， 第 1 章 中 采用 了 感知 
器 算法 。 如 前 所 示 ， 图 1. 8 给 出 了 提供 训练 数据 和 测试 数据 的 双 月 结构 。 而 这 里 采用 最 小 二 乘 
法 来 实现 分 类 。 

图 2. 2 给 出 了 在 两 月 之 间 的 分 隔 距 离 为 d=1 时 最 小 二 乘 算法 的 训练 结果 。 图 中 给 出 了 双 
月 之 间 构 造 的 决策 边界 。 相 应 地 由 感知 器 算法 在 相同 的 设置 d= 时 的 结果 在 图 1.9 中 给 出 。 
比较 这 两 个 图 ， 可 以 观察 到 如 下 有 趣 的 结果 

1. 这 两 个 算法 所 构造 的 决策 边界 都 是 线性 的 ， 从 直观 上 来 说 是 令 人 满意 的 。 最 小 二 乘 算 
法 揭示 了 双 月 的 位 置 之 间 彼此 相关 的 不 对 称 方式 ， 像 图 2. 2 中 正 倾斜 的 决策 边界 那样 。 有 趣 的 
是 ， 感 知 器 算法 完全 忽视 了 这 种 不 对 称 性 ， 构 造 了 和 x 轴 平 行 的 决策 边界 。 

2. 对 于 分 隔 距 离 4 二 1， 双 月 是 线性 可 分 的 。 感 知 器 算法 对 这 个 设置 完美 地 完成 了 任务 ; 
而 最 小 二 乘法 虽然 发 现 了 双 月 图 的 非 对 称 特征 ， 但 对 测试 数据 产生 了 误 分 类 ， 带 来 了 0.8% 的 
分 类 误差 。 

3. 和 感知 器 不 同 ， 最 小 二 乘法 一 次 性 地 计算 决策 边界 。 
距离 和 1， 半 径 =10， 宽 王 6 时 利用 最 小 二 乘 进行 分 类 





# 
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ge he 
oe Bie 





-10 : 
2.2 ”距离 d=1 时 对 图 1.8 MRAM RRA 
图 2. 3 ENDREH 4d 一 一 4 时 最 小 二 乘法 作用 于 双 月 模式 的 实验 绪 采 。 如 预料 的 那样 ， 
现在 分 类 误差 显著 增加 ， 达 到 了 9.5% 。 对 于 同样 的 设置 ， 根 据 图 1. 10 所 报告 的 感知 器 算法 
存在 9.3% 的 分 类 误差 ， 两 者 比较 ， 我 们 看 到 最 小 二 乘法 的 分 类 性 能 略 弱 于 感知 玫 算 法 。 
由 1.5 节 和 2.5 节 的 模式 分 类 计算 机 实验 可 以 得 到 如 下 的 重要 结论 : 
尽管 感知 器 和 最 小 二 有 弱 算 法 都 是 线性 的 ， 它 们 在 实现 模式 分 类 任务 的 时 候 其 运行 是 不 
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同 的 。 





半径 =10， 宽 一 6 时 利用 最 小 二 乘 进行 分 类 





_10 $ 0 5 10 15 20 


图 2.3 距离 d= 一 4 INT 1.8 的 双 月 的 最 小 二 乘 分 类 


2.6 最 小 描述 长 度 原则 


通过 线性 模型 对 随机 过 程 进行 指 述 可 以 用 于 合成 和 分 析 。 对 于 合成 (synthesis), 我 们 通 
过 给 模型 参数 分 配给 定 集 的 数值 来 产生 希望 的 时 间 序 列 ， 并 将 之 和 均值 为 0 方差 预先 给 定 的 白 
% (white noise) 结合 起 来 ; 这 样 获 得 的 模型 可 以 称 为 生成 模型 (generative model), 。 对 于 分 
®t (analysis)， 从 为 一 方面 ， 我 们 对 于 固定 长 度 的 给 定时 间 序 列 进行 处 理 以 佑 计 模 型 参数 ， 可 
以 利用 贝 叶 斯 方法 或 者 正则 最 小 二 乘法 。 由 于 估计 是 在 统计 的 范围 内 ， 我 们 需要 在 模型 和 观测 
数据 的 匹配 性 上 给 出 一 个 适当 的 测量 。 我 们 将 这 第 二 种 问题 称 为 模型 选择 (model selection), 
例如 ， 我 们 可 能 想 要 估计 模型 自由 度 ( 即 可 调整 的 参数 ) 个 数 ， 其 至 估计 模型 的 一 般 结构 。 

统计 和 学 文献 中 提出 了 很 多 用 于 模型 选择 的 方法 ， 其 中 每 个 方法 都 有 其 自身 的 目标 。 由 于 这 
些 方 法 的 目标 各 不 相同 ， 基 而 在 应 用 于 同样 的 数据 集合 时 ， 不 同 的 方法 会 产生 很 大 的 不 同 是 不 
奇怪 的 (Grünwald, 2007). 

本 节 中 ， 我 们 介绍 一 个 充分 证 明了 行 之 有 效 的 方法 ， 称 为 模型 选择 的 最 小 描述 长 度 (min- 
imum-description-length, MDL) 原则 ， 这 是 由 Rissanen (1978) 所 做 出 的 开创 性 工作 。 

MDL 原则 发 现 的 灵感 可 以 追溯 到 柯 尔 英 哥 洛 夫 复杂 性 理论 (Kolmogorov complexity the- 
ory) 。 在 这 一 值得 注意 的 理论 中 ， 伟 大 的 数学 家 柯 尔 莫 哥 洛 夫 定 义 了 如 下 的 复杂 性 (Kolmog- 
orov, 1965; Li and Vitányi, 1993; Cover and Thomas, 2006; Grünwald, 2007): 


数据 序列 的 算法 (描述 ) 复杂 度 是 用 于 打印 出 这 个 序列 然后 终止 的 最 短 二 进 计算 机 程序 的 
长 度 。 


令 人 惊讶 的 是 对 于 复杂 度 的 定义 没有 采用 概率 分 布 的 记号 作为 其 基础 ， 而 是 考虑 计算 机 这 一 最 
通常 形式 的 数据 压缩 机 。 
利用 柯 尔 莫 哥 洛 夫 复 杂 度 的 基本 概念 ， 我 们 可 以 详尽 阐述 理想 归纳 推理 理论 (theory of 
idealized inductive inference)， 其 目标 是 找到 给 定数 据 序列 的 “规律 ” (regularity)。 将 学 习 视 
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为 尝试 寻找 “规律 ”的 思想 为 Rissanen 在 表述 MDL 原则 时 提供 了 第 一 个 观察 。Rissanen 利用 
的 第 二 个 观察 是 规律 本 身 可 以 等 同 于 “压缩 能 力 ”。 

因此 ，MDL 原则 将 两 个 观察 组 合 在 一 起 ， 一 个 观察 是 规律 ， 男 一 个 观察 是 压缩 能 力 ， 从 
而 将 学 习 视 为 数据 压缩 ， 这 反 过 来 提示 我 们 如 下 内 容 : 

给 定 一 个 假设 集合 %， 一 个 数据 序列 d, RINE 。 斌 寻找 R 中 的 特定 的 假设 或 者 多 中 菜 些 假设 
的 组 合 来 最 大 化 地 压缩 数据 序列 dd. 


这 段 话 很 简洁 地 总 结 了 MDL 原则 是 什么 。 这 里 的 用 于 标识 序列 的 符号 d 不 要 和 前 面 用 于 表示 
期 望 响应 的 符号 4 FATA 

文献 中 已 经 有 MDL 原则 的 多 个 版 本 。 我 们 将 集中 讨论 最 古老 的 但 却 最 简单 、 最 著名 的 版 
本 ， 称 为 概率 模型 的 简单 两 部 分 编码 MDL 原则 (simplistic two-part code MDL principle), AR 
iE “24” (simplistic) 意思 是 所 考虑 的 编码 长 度 不 是 由 优化 方式 决定 。 这 里 采用 的 术语 “ 编 
码 ”(code) 和 “编码 长 度 ” (codelengths〉 是 关于 对 数据 序列 按照 最 短 或 最 小 元 余 (least re- 
dundant) 方式 编码 的 过 程 。 

假设 给 定 一 个 候选 模型 或 者 模型 类 人 包 。JL 的 所 有 元 素 都 是 概率 源 ， 后 文 将 用 如 来 表示 点 假 
设 而 不 是 用 %。 特 别 地 ， 我 们 寻找 能 够 最 好 解释 给 定数 据 序列 d AY BE EE PR p CM MRR 
分 编码 MDL 原则 告诉 我 们 ， 寻 找 〈 点 ) 假设 pE A 使 其 最 小 化 p 的 描述 长 度 ， 我 们 将 p 的 指 
述 长 度 记 为 Li1(p)， 在 p 的 帮助 下 编码 后 的 数据 序列 4 的 描述 长 度 记 为 Li(d1p)。 我 们 有 和 和 的 
形式 : 











Liu(psd) = Li(p) + Lildlp) 

选择 特别 的 点 假设 pEU 最 小 化 Li( p> d). 

重要 的 是 这 里 p 本 身 也 被 编码 。 因 而 ,在 寻找 最 大 地 压缩 数据 序列 d 的 假设 的 时 候 ，， 必须 
按照 这 样 的 途径 来 编码 (描述 或 压缩 ) 数据 ， 即 解码 器 能 够 在 甚至 事先 不 知 道 假设 的 情况 下 局 
复数 据 。 这 可 以 通过 明确 的 编码 假设 来 实现 ， 如 前 述 的 两 部 分 编码 原则 所 还; 这 也 可 以 通过 完 
全 不 同 的 途径 来 实现 一 一 例如 通 过 对 假设 进行 平均 (Grünwald, 2007). 
模型 阶 选择 

A MD ,MD ge AMO yore, 定义 一 组 线性 回归 模型 ， 其 相应 的 参数 向 量 为 w EW:， 其 中 模 
HY YY k = 1,2,…; 即 权 空 间 Wo ,We yee Wee yore, FEE BC HS TY o 感 兴趣 的 问题 是 确定 能 最 好 
解释 未 知 环境 的 模型 ， 训 练 样本 集 {x;:，d,) 羡 1 是 产生 于 这 个 环境 的 ， 其 中 x 为 刺激 ，d; 为 相 
应 的 响应 。 我 们 刚刚 描述 的 是 模型 hie vine (model-order selection problem) 。 

通过 对 组 合 长 度 Le., d) 的 统计 特性 的 工作 ， 两 部 分 编码 MDL 原则 告诉 我 们 选择 使 下 
式 最 小 的 第 & 个 模型 : 





误差 项 复杂 上 度 项 
: Ck) Ck) k - ka 
min |— logp(d, lw aw? + Zlog(N) +O}, - (2. 37) 
i 2 paN 


其 中 rw ) 为 参数 向 量 w* 的 先 验 分 布 ， 上 式 的 最 后 一 项 是 关于 模型 阶 & 的 阶 (Rissanen, 
1989; Grinwald，2007)。 对 于 大 的 样本 集 大 小 N， 最 后 一 项 会 被 表达 式 的 第 二 页 log(N) 所 


, 3002. 37) 的 表达 式 通 种 分 解 为 两 项 : 
。 误差 项 ， 记 为 一 log(p(d;|w*)rCw*)， 与 模型 以 及 数据 有 关 。 


。 复杂 度 项 ， 记 为 和 log(N) 十 OGA)， 仅 仅 和 模型 有 天。 
字 际 上 ， 对 于 不 同 的 结果 ， 应 用 式 (2. 37) 时 经 常 省 略 O(4) 项 以 简化 问题 。 产 生 不 同 结 采 
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的 原因 是 OC(k&) 项 可 能 相当 大 。 然 而 对 于 线性 回归 模型 ， 它 能 够 明确 有 效 地 计算 出 来 ， 其 结果 
在 实际 中 能 够 工作 得 非 和 党 好 。 

注意 在 式 (2. 37) 的 表达 式 中 不 采用 先 验 分 布 x(w“*〉 是 由 Rissanen (1978) 首先 提出 的 。 

如 果 对 于 式 (2. 37) 的 表达 式 有 不 止 一 个 最 小 化 值 ， 那 么 我 们 选择 具有 最 小 假设 复杂 项 的 那 
个 模型 。 如 果 这 样 做 仍然 留 下 了 多 个 候选 模型 ， 将 不 做 额外 的 选择 而 只 是 用 其 中 的 一 个 来 工作 
(Grünwald, 2007). 

MDL. 原则 的 贡献 

模型 选择 的 MDL 原则 提供 了 两 个 重要 的 贡献 (Grünwald, 2007); 

1. 当 有 两 个 模型 对 于 给 定 的 数据 序列 匹配 得 一 样 好 的 时 候 ，MDL 原则 选择 “最 简单 的 ” 
那个 ， 即 它 允 许 利 用 对 数据 更 短 的 描述 。 换 句 话说 ，MDL EMKE T AFF Occam’ s 
razor) 的 精确 形式 ， 奥 卡 姆 剃刀 说 明了 对 简单 理论 的 优先 选择 : 
接受 匹配 数据 的 最 简单 解释 

2. MDL 原则 是 一 致 的 《consistent〉 模型 选择 估计 虽 ， 随 着 样本 个 数 的 增加 ， 它 收敛 于 真 
的 模型 阶 。 

也 许 最 值得 注意 的 是 ， 包 括 MDL 原则 在 内 的 几乎 所 有 的 应 用 ， 在 文献 中 极 少 有 关于 不 展 
特性 的 反常 结果 或 模型 鸭 志 录 。 


2.7 固定 样本 大 小 考虑 


对 于 参数 估计 的 最 大 似 然 估计 或 一 般 最 小 二 乘法 来 说 ， 其 最 大 的 局 限 在 于 解 的 非 唯一 性 和 
不 稳定 性 ， 这 是 由 于 完全 依赖 于 观测 模型 〈 即 训练 样本 了 ) 所 导致 的 ; 刻画 解 的 非 唯 一 性 和 不 
稳定 性 在 文献 中 也 被 称 为 过 拟 合 〈overfitting) 。 为 了 对 这 一 实际 问题 进行 更 深入 的 探讨 ， 考 卡 
如 下 的 一 般 回归 模型 : 
d = f(x.w) +e (2. 38) 
其 中 fix,w) 为 关于 回归 量 x 和 模型 参数 w 的 确定 函数 ，e 是 期 望 误差 。 由 图 2. 4a 所 示 的 这 一 
模型 ， 是 随机 环境 的 数学 描述 ， 其 县 的 在 于 解释 或 者 预测 由 回归 量 x 产 生 的 啊 应 4。 
图 2. 4b 是 环境 的 相应 物理 模型 ， 其 中 多 记 为 未 知 参数 向 量 w 的 一 个 估计 。 第 二 个 模型 的 


目的 是 编码 由 训练 样本 9 表示 的 试验 知识 ， 如 下 式 所 示 : 
可 一 w (2. 39) 


回归 量 eee 响应 
X d 











图 2.4 a) 随机 环境 的 数学 模型 ， 其 参数 为 向 量 w; bO 环境 的 物理 模型 ， 其 中 凡是 未 知 参 数 向 量 w 的 佑 计 


实际 上 ， 物 理 模 型 提供 了 图 2. 4a 所 示 的 回归 模型 的 一 个 逼近 (approximation), 将 响应 于 输入 
向 量 x 所 产生 的 物理 模型 的 实际 响应 记 为 : 
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y= F(x,W) (2. 40) 
其 中 F(。,W) 为 由 物理 模型 实现 的 输入 输出 函数 ; 式 (2. 40) 中 的 y 是 随机 变量 Y 的 一 个 样本 
值 。 给 定式 (2. 39) 的 训练 样本 可 ， 估 计 器 多 是 如 下 的 代价 函数 的 最 小 化 值 : 


lc s 
ECR) = 72 (d, — F(x,,W))” (2.41) 


其 中 因子 1/2 是 为 了 和 前 面 的 记号 保持 一 致 。 除 了 尺度 因子 1/2, RAMRAAER) 是 环境 〈 期 
FA) 响应 d 和 物理 模型 的 实际 啊 应 y 之 间 差 的 平方 ， 在 整个 训练 样本 集 F 上 计算 。 

令 符 号 区 表示 在 整个 训练 样本 集 了 上 所 到 的 平均 HT Caverage Operator) o 在 平均 算 子 Ej 下 
的 变量 或 其 晴 数 由 xX Ald 表示 ，(x,d) 对 表示 训练 样本 了 中 的 一 个 例子 。 与 之 相 比 ， 统 计 期 望 
算 子 E 作 用 于 整个 x 和 4 的 总 体 上 ，9 作 为 一 个 子 集 也 包括 在 内 。 在 下 面 要 特别 注意 算 子 上 和 上 Er 
之 间 的 区 别 。 

受 式 (2. 39) 所 示 的 变换 的 启发 ， 可 以 将 FOW) 和 F(x,9) 互 换 使 用 ， 从 而 将 式 (2. 41) 写 
成 如 下 等 价 形式 : 


GOW) = 5 EL Fx,9))’] (2. 42) 


通过 对 项 (4 一 F(x,9) 增加 然后 减 去 f(x,w)， 然 后 利用 式 (2. 39, RNA 
d— f(x,9) =[d— fix.w) ] +L f(x.w) — Fa] =e+Lf(x.w) — F(x,T) | 
将 这 一 表达 式 代 入 式 (2. 42) 然 后 扩展 开 来 ， 可 以 重 写 代价 函数 6(W) 为 如 下 的 等 价 形 式 : 


ECR) = = Ele] +> EL w) — F(x,T)) l] +E Lef (xw) —eF (x.F)} (2. 43) 


然而 ， 式 (2. 43) 右 边 最 后 的 期 望 项 是 0， 基 于 如 下 两 个 原因 : 
。 WARE e 和 回归 函数 f(x,w) 之 间 是 不 相关 的 。 
。 期 望 误差 。 属于 图 2. 4a 所 示 的 回归 模型 ， 而 通 近 函数 F(x,WW) 属 于 图 2. 4b 所 示 的 物理 
模型 。 
相应 地 ， 式 (2. 43) 简 化 为 
g(w) = + Ele] + > Bl few) — F(x,9))’] (2. 44) 


式 (2.44) 右 端的 项 Er[e:] 是 期 望 〈 回 归 建 模 ) 误差 s 的 方差 (variance)， 在 整个 训练 样本 集 了 
上 评估 ;这 里 假设 s 具 有 0 -均值 。 方差 表示 固有 误差 (intrinsic error), 因为 它 独立 于 估计 WwW。 
因此 ， 估 计量 WW (代价 函数 名 (WW) 的 最 小 化 值 ) 也 将 最 小 化 回归 函数 F(x,w)7 和 逼近 函数 下 (x,W) 
之 间 上 臣 离 平方 的 总 体 平均 。 换 名 话说， 对 于 F(X, 次) 的 效果 的 自然 测度 (natural measure) 是 
作为 期 望 响 应 d 的 预测 值 ， 由 下 式 定 义 〈 和 忽略 了 尺度 因子 1/2): 

La Cf XIW) FXW)) = ELECO, w) — F(x,T)) | (2.45) 
自然 测度 从 根本 上 是 非常 重要 的 ， 因 为 它 提供 了 在 偏 置 和 方差 之 间 取 得 平衡 的 数学 基础 ， 而 这 
两 者 是 由 利用 F(x,W) 作为 f(x,w) 的 通 近 而 产生 的 。 
偏 置 -方差 困境 

由 式 (2. 38) 我 们 发 现 函 数 f(x,w) 等 于 条 件 期 望 ECd|x) 。 因 而 可 以 将 f(x) 和 F(x,W) 之 加 

距离 的 平方 重新 定义 如 下 

Li (f(x.w),FCx.W)) 一 区 LELZIx — F(x,T))°] (2, 46) 
这 一 表达 式 可 以 看 成 是 在 回归 函数 f(x,w) 二 ELad|xj] 以 及 通 近 函数 F(x,W) 之 间 估 计 误 差 的 平均 
值 ， 在 整个 训练 样本 集 外 上 评估 。 注 意 条 件 均 值 ELdZ 1|x 对 训练 样本 集 外 具有 常 期 望 。 下 面 我 
们 有 
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ELd|x]— Fx, = (Ffad|x] —E[ F(x,T) J+ (Eq L F(x. T) |) — F(x,T)) 
XE REAA ERER AFELE]. REA. 42) R. 43 AMM 
式 ， 我 们 将 式 (2. 46) 重 新 表示 成 两 项 之 和 的 形式 (见习 题 2.5). 


Li (f(xX) ,F(xX,T)) = BOW) VW) (2. 47) 
其 中 BCW) 和 VC(W) 被 分 别 定义 为 
BW) = E[LF(x,T)]— ELdlx] (2. 48) 
和 
Vw) =EL CF, T) — El[F(x,T) |)? ] (2. 49) 


现在 可 观察 到 两 个 重要 结果 

1. 第 一 项 BOW) fe UR Foa, DEFIA, Wi a g f(x,w) 二 ELd |x] 来 
M. AM, BORZ H K% Cr, w) xe SC AY By Pe OB BE E A A CJ ef Cx. w) = 
Eld|x|. AKA DOR Se BOW) &@ it fi iS 224% Z (approximation error), 

2. 第 二 项 VOW) eI POD) 的 离散 ， 在 整个 训练 样本 集 9 上 测量 。 因 而 ，V(W) 表 
未 大 于 回归 靖 数 f(x,w) 的 包含 于 训练 样本 集 9 中 的 试验 知识 的 不 充分 性 。 因 而 可 以 将 VOW) 
成 估计 误差 (estimation error) 的 显 性 表示 。 

图 2.5 图 示 了 目标 (期 望 ) 和 和 通 近 陋 数 之 间 的 关系 ， 它 说 明 估 计 误 差 ( 即 偏 置 和 离散 ) 是 
如 何 累 积 的 。 为 了 达到 好 的 总 体 性 能 ， 允 近 也 数 F(x,W) 二 F(x,9) 的 偏 君 BOW ALB OV CW) BB 
必须 很 小 。 

遗憾 的 是 ， 我 们 发 现在 对 有 限 容量 的 训练 样本 通过 样 例 进行 学 习 的 复杂 物理 模型 中 ， 获 取 
小 偶 置 的 代价 是 大 的 离散 。 对 于 任何 物理 模型 而 言 ， 仅 仅 在 训练 样本 容量 无 限 大 的 时 候 ， 才 有 
布 望 同 时 消除 俩 置 和 离散 。 相 应 地 就 有 偏 置 -离散 困境 (bias-variance dilemma)， 其 结果 就 是 
过 慢 的 收敛 速度 〈Geman 等 ，1992)。 偏 置 -离散 困境 可 以 通过 有 目的 地 引入 偏 置 来 规避 ， 这 
将 使 得 消除 或 者 显著 减少 离散 成 为 可 能 。 当 然 ， 我 们 必须 保证 在 物理 模型 的 设计 中 引入 的 偏 置 
是 无 害 的 。 例 如 从 模式 分 类 的 角度 来 说 ， 仿 置 是 无 害 的 是 指 仅仅 在 我 们 试图 推断 未 预期 类 的 回 
归 时 它 对 于 均 方 误差 有 显著 贡献 。 


人 


图 2.5 对 于 线性 回归 模型 ， 由 式 (2.46) 定 义 的 目 然 测度 L,, (f(x,w)，F(x，W)) 被 分 解 为 偏 置 和 离散 项 


关于 图 2. 5 的 解释 如 下 : 

1. 图 中 带 阴影 的 内 部 空间 是 外 部 空间 的 子 集 ， 
外 部 空间 表示 回归 函数 Of C+ ,w) 的 总 体 。 
内 部 空间 表示 通 近 郴 数 F(' ,W) 的 总 体 。 

2. 图 中 有 三 个 点 ， 两 个 是 固定 的 ， 一 个 是 随机 的 : 
ELwgjxj， 男 定点 ， 外 部 空间 上 的 平均 
ELEFECGx, 了 )]， 第 二 个 固定 点 ， 内 部 空间 上 的 平均 
Fx.) 随机 分 布 在 内 部 空间 内 

3. 统计 和 参数， 包含 在 图 中 : 








f(x, w)=Eldlx| 
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B (w) =A, XPE [dix] #E, [LF tx, N] 之 间 的 距离 。 
V w) 二 离散 ,表示 F(x, J) #E [LF x, p] 之 间距 离 的 平方 ， 
在 训练 样本 集 F 上 平均 。 
B? (w) +V (w) =F (x, T) 和 FE [d|x] 之 间距 离 的 平方 ， 在 训练 样本 集 F 上 平均 。 
通常 来 说 ， 必 须 对 每 个 具体 的 应 用 设计 偏 置 。 达 成 这 一 目标 的 一 个 实际 途径 是 利用 约束 
(constrained) 网 络 结 构 ， 这 将 比 通用 结构 表现 更 优 。 


2.8 工具 变量 方法 


在 学 习 线性 回归 模型 的 时 候 ， 我 们 首先 在 2. 3 节 从 贝 叶 斯 理论 的 观点 作 了 讨论 ， 然 后 在 
2.4 节 从 最 小 二 乘法 的 观点 作 了 讨论 。 我 们 指出 ， 两 种 方法 都 能 产生 图 2.1 所 示 的 未 知 随 机 环 
境 的 参数 向 量 w 的 相同 解 ， 即 作为 正则 线性 回归 模型 的 式 (2. 29) 和 非 正则 版 本 的 式 (2. 32)。 这 
些 公式 在 回归 量 〈 即 输入 信号 ) x 和 期 望 响应 d 都 无 噪声 的 前 提 下 根据 高 斯 环境 导出 。 然 而 ， 
如 果 回 归 量 x 仅 能 在 加 性 噪声 的 环境 下 观测 ， 实 际 中 会 发 生 什 么 ? 也 就 是 说 ， 现 在 噪声 回归 量 
被 定义 为 

-A (2. 50) 
其 中 vw; 是 伴随 着 训练 样本 集 9 中 第 i 次 实现 的 观测 x, 的 噪声 的 测量 。 如 果 应 用 式 (2. 32) 的 非 正 
则 公式 ,将 获得 未 知 随机 环境 的 参数 向 量 w 的 修正 解 : 

Wun = Re Pa (2. 51) 
HbR, 是 噪声 回归 量 z 的 时 间 平 均 相关 函数 ,是 相应 的 期 望 响应 d 和 zz 的 时 间 平 均 互 相关 
函数 。 为 了 简化 问题 ， 我 们 忽略 了 这 两 个 相关 函数 对 于 训练 样本 容量 的 依赖 性 。 假 设 测量 噪声 
向 量 v 是 白 噪声 ， 其 均值 为 0 且 相 关 和 矩阵 为 oI， 其 中 工 是 单位 矩阵 ， 我 们 得 到 下 面 的 相关 
PÁ ay : 

R. = R„ tal 


和 
Pa = fy 
相应 地 ， 最 大 似 然 估计 器 假设 为 下 面 的 新 形式 
u = (R, HED? fa (2.52) 


从 数学 上 来 说 ， 这 个 式 子 等 价 于 式 (2. 29) 的 MAP 公式 ， 其 正则 化 参数 4 被 设置 为 等 于 噪声 方 
差 oc。 这 一 观察 使 得 我 们 可 以 作 如 下 的 陈述 ; 


在 回归 量 z 中 存在 的 加 性 噪声 (HA SIE OR BA EB) 具有 稳定 最 大 似 然 估计 器 的 有 益 效 
果 ， 但 是 以 给 解 引入 偏 置 为 代价 。 


这 是 个 很 具有 讽刺 意味 的 陈述 ， 附加 的 噪声 扮演 了 正则 器 (稳定 器 ) 的 角色 ! 
sR, (HIS ae EB EM AALS WX ow 产生 的 解 是 渐 近 无 偏 的 〈asymptotically unbi- 
ased) 。 在 这 种 情形 下 ， 我 们 可 以 求助 于 工具 变量 方法 (Young, 1984). 这 种 方法 依赖 于 引入 
工具 变量 集 ， 表 示 为 向 量 和 六， 和 噪声 回归 量 z 具有 相同 的 维 数 ， 且 满足 下 述 两 个 性 质 : 
性 质 1 工具 向 量 & 利 无 噪 回归 量 x 之 间 是 高 度 相 关 的 ， 如 下 式 表示 : 
Elri] £0 ,对 所 有 7 和 (2. 53) 
Er, c 是 无 噪 回归 量 x 的 第 j 个 元 素 ，2 是 工具 向 量 # 的 第 k 个 元 素 。 
性 质 2 工具 向 量 和 测量 噪声 向 量 v 是 统计 独立 的 ， 如 下 式 所 示 : 
Flu] 二 0 ,对 所 有 7 和 上 (2. 54) 
有 了 满足 上 面 两 个 性 质 的 工具 向 量 人 ， 我 们 来 计算 下 面 的 相关 画 数 
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1. 噪声 回归 量 z 和 工具 向 量 # 是 相关 的 ， 得 到 互相 关 和 矩阵 : 
R.: = > Kz) (2.55) 


其 中 2, 是 噪声 训练 样本 (zod HSS oA, & 是 相应 的 工具 向 量 ， 
2. 期 望 的 响应 4 和 工具 向 量 & 是 相关 的 ， 得 到 互相 关 向 量 ， 


Cas = 2 Kd; (2. 56) 
给 定 这 两 个 相关 度量 ， 我 们 利用 修正 公式 : 
N = N 
WON) = Ror: = (> zr) (> td; ) (2.57) 


来 计算 对 于 未 知 参 数 向 量 w 的 一 个 估计 CYoung, 1984), MÈ (2.51) W ML 解 不 同 ， 式 
(2. 57) 的 修正 公式 基于 工具 变量 方法 ， 对 未 知 参 数 向 量 w 提供 了 一 个 渐 近 无 仿 估 计 ; 参考 习题 
De 

然而 ， 在 利用 工具 变量 方法 的 时 候 ， 关 键 问 题 是 如 何 获取 或 者 产生 满足 性 质 1 和 2 的 变 
量 。 结 果 在 时 间 序 列 分 析 中 ， 关 于 这 一 问题 的 解 非 常 直接 ， 这 有 些 出 乎 意料 。 


2.9 小 结 和 讨论 


本 章 学 习 了 在 统计 学 文献 中 已 经 很 好 地 建立 起 来 的 线性 回归 的 最 小 二 乘法 。 我 们 是 从 两 个 
不 同 但 互补 的 观点 展开 学 习 的 : 

。 贝 叶 斯 理论 ， 这 里 感 兴 趣 的 目标 是 对 一 组 未 知 的 参数 作 最 大 后 验 估计 。 这 一 参数 估计 

方法 需要 对 于 未 知 参 数 的 先 验 分 布 知识 。 这 里 是 关于 高 斯 环境 的 说 明 。 

。 正则 理论 ， 这 里 用 于 最 小 化 的 对 未 知 参 数 的 代价 函数 包含 两 部 分 : 在 整个 训练 数据 上 

的 平方 解释 误差 和 由 参数 向 量 的 平方 欧 几 里 得 范 数 定义 的 正则 项 。 

对 于 如 下 特殊 环境 ， 即 未 知 参数 的 先 验 分 布 服从 均值 为 0， 方 差 为 o% 的 高 斯 分 布 ， 正 则 参 
数 和 和 os 是 成 反比 的 。 这 意味 着 当 o 很 大 的 时 候 ( 即 未 知 参数 在 很 广 的 范围 内 一 致 分 布 )， 
用 于 寻找 参数 向 量 w 的 估计 的 公式 可 以 由 法 方程 (normal equation) 定义 : 

w= RU fa 
EPR 是 关于 向 量 x 的 时 间 平 均 相 关 和 矩阵 ，Fj 是 相应 的 输入 问 量 x 和 期 望 响应 d 之 间 的 时 间 
平均 互相 关 向 量 。 两 个 相关 参数 都 是 利用 训练 样本 (xd) KiB, 因而 依赖 于 样本 容量 
N。 进 一 步 说 ， 如 果 假 设 其 先 验 是 一 致 分 布 的 话 ， 这 一 公式 和 最 大 似 然 估计 法 获得 的 解 是 等 
价 的 。 

我 们 还 讨论 了 其 他 三 个 重要 的 问题 : 

。 用 于 模型 阶 选择 ( 即 线性 回归 模型 中 未 知 参数 器 量 的 大 小 的 最 小 描述 长 度 (MDL) 

准则 。 
。 偏 置 -离散 困境 ， 这 意味 着 在 参数 估计 (包含 利用 有 限 样 本 容量 ) 时 不 可 避免 地 会 遇 到 
在 估计 的 离散 和 偏 置 之 间 寻 找平 衡 的 任务 ; 偏 置 定义 为 参数 估计 的 期 望 值 和 实际 值 之 
问 的 偏差 ， 而 离散 是 对 期 望 值 四 周 估计 的 “变更 度 ”(volatility》〉 的 度量 。 

。 工具 变量 方法 ， 当 训练 样本 观测 是 有 噪声 的 时 候 就 需要 用 到 这 一 方法 ;在 实际 中 已 知 
会 遇 到 这 样 的 情况 。 


注释 和 参考 文献 
1. 回归 模型 可 以 是 线性 的 也 可 以 是 非 线 人 性 的 。 在 Rao (1973) 的 经 典 图 书 中 对 线性 回归 模型 进行 了 深入 讨论 。 
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Seber 和 Wild (1989) 讨论 了 非 线性 回归 模型 。 
2. 具有 高 度 可 读 性 的 贝 叶 斯 理论 方面 的 资料 ， 参 考 Robert (2001), 
3. 对 于 最 小 二 乘法 的 细节 方面 的 讨论 ， 参 考 Haykin (2002) 的 第 8 章 。 


习题 


2.1 讨论 线性 回归 模型 中 参数 向 量 的 最 大 后 验 估 计 和 最 大 似 然 佑 计 之 问 的 基本 差别 。 
2.2 ARO. 36) 的 代价 函数 轨 (w) 开 始 ， 通 过 对 未 知 参数 向 量 w 最 小 化 代价 函数 来 推导 式 (2. 29)。 
2.3 基于 图 2. 1 的 线性 回归 模型 给 出 最 小 二 乘 估计 恬 的 性 质 : 

性 质 1 最 小 二 乘 佑 计 








w S= Rela 
是 无 偏 的 ， 如 果 图 2. 1 的 线性 回归 模型 中 期 望 误差 es 具有 0 -均值 。 
性 质 2 当期 望 误差 。 是 从 一 个 均值 为 0 TAA d 的 白 品 中 产生 的 话 ， 最 小 二 乘 估计 加 的 协 方 差 惩 阵 
等 于 





oe 
ao R. 


性 质 3 估计 误差 


产生 于 最 小 二 屠 优 化 方法 ， 和 期望 响 应 的 估计 RERA d) 是 正 交 的 ; 这 一 性 质 是 正 交 人 性 原理 Cprinci- 
ple of orthogonality) 的 必然 结果 。 如 果 采 用 d, ds æ 的 几何 表示 ， 我 们 将 发 现 表 示 e。 Win] Ht, 是 垂直 
于 〈 即 法 于 ) 表示 也 的 向 量 的 。 正 是 受 这 一 几何 表示 的 启发 ， 下 面 的 式 子 才 称 为 法 方程 : 
Ra W 一 Py 
从 法 方程 开始 ， 在 良 , 和 Fs 为 时 间 平 均 相 关 函 数 的 前 提 下 证 明 这 三 个 性 质 。 
2.4 SRL RRA x MERDEKA, BS ry, SR A AY EI x 和 响应 d 之 间 的 总 体 平 均 互 相关 


回 量 ; 即 
Ra 一 ELxx ] 
rz = Eldx] 
参考 式 (2. 3) Ye VE Te VA AY, WE BH Bae NC BY iR 
J(w) = Ele’ ] 


& ey Wiener-Hopt 方程 
Ro W = Paz 
其 中 w 是 回归 模型 的 参数 向 量 。 比 较 这 一 方程 和 式 (2. 23) 的 法 方程 。 
2.5 £24) SRI BK F(x,W) 作为 期 望 响应 d 的 预测 器 的 有 效 性 的 自然 测度 。 这 一 表达 式 由 两 个 分 量 
组 成 ， 一 个 定义 平方 偏 置 ， 另 一 个 定义 离散 。 从 式 (2. 46) 推 导 这 一 表达 式 。 
2.6 TERA POR: 
通过 编 入 先 验 知识 而 约束 的 网 络 结 构 ， 以 增加 偏 置 为 代价 来 减少 离散 ， 从 而 处 理 偏 置 -离散 困境 。 
2.7 式 (2. 57) 描 述 的 工具 变量 法 提供 了 对 未 知 参 数 向 量 w(N) 的 渐 近 无 偏 估计 ; 即 
lim w(N) = w 
证 明 这 句 话 的 正确 性 ， 假 设 回归 量 x 和 响应 d BRAMAN. 
计算 机 实验 
2.8 重复 2.5 节 中 所 描述 的 模式 分 类 实验 ， 这 一 次 将 两 个 月 亮 设 为 恰好 线性 可 分 ， 即 & 一 0。 对 你 的 结果 作 评 
论 ， 并 且 将 之 和 习题 1. 6 中 用 感知 器 所 获得 的 结果 相 比 较 。 
2.9 在 2.5 节 和 习题 2.8 的 实验 中 ， 没 有 对 最 小 二 乘法 进行 正则 化 。 如 果 采 用 正则 化 的 话 会 不 会 对 最 小 二 乘 
法 的 性 能 产生 影响 ? 
为 了 证 实 你 对 这 个 问题 的 回答 ， 重 复习 题 2. 8 的 实验 ， 这 一 次 利用 正则 最 小 二 乘法 来 做 。 
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本 章 组 织 





3.1 节 的 引言 部 分 以 及 随后 的 3.2 节 通过 关于 有 限 脉 冲 响应 的 线性 离散 时 间 滤 波 器 的 讲 
述 ， 为 本 章 剩余 部 分 建立 了 基础 。 

3.3 节 回顾 两 个 无 约束 最 优化 技术 : 最 速 下 降 法 和 和 牛顿 法 。 

3.4 节 介 绍 维 纳 (Wiener) 滤波 器 ， 在 最 小 均 方 误差 意义 下 它 是 最 优 的 。 一 般 来 说 ，LMS 
算法 的 平均 性 能 是 通过 维 纳 滤 流 器 来 判断 的 。 

3.5 节 介 绍 LMS 算法 的 推导 。3.6 节 提 供 一 个 作为 马尔 可 夫 模 型 的 LMS 算法 的 修正 形 
式 。 然 后 ， 为 研究 LMS 算法 的 收敛 行为 作 准 备 ，3.7 节 介 绍 来 自 于 非 稳 定 热 力学 的 盎 之 万 
(Langevin) 方程 。 算 法 的 收敛 分 析 所 必需 的 另 一 个 工具 是 关于 直接 平均 的 Kushner 方法 ; 这 
一 方法 在 3.8 节 中 讨论 。3.9 节 中 介绍 算法 的 详细 的 统计 分 析 ; 更 重要 的 是 ， 能 够 证 明 算 法 的 
统计 行为 (使 用 小 的 学 习 率 参数 ) 实际 上 是 朗 之 万 方程 的 离散 时 间 版 本 。 

3.10 节 用 计算 机 实验 来 评估 LMS 算法 的 小 学 习 率 理论 。3. 11 节 重 复 1.5 节 利 用 感知 器 进 
行 的 模式 分 类 实验 ， 而 这 一 节 采 用 的 是 LMS 算法 。 

3.12 节 讨 论 LMS 算法 的 优点 和 局 限 性 。3.13 节 讨 论 关 于 学 习 率 退火 方案 的 相关 问题 。 


3.1 引言 


第 1 章 所 讨论 的 Rosenblatt 感知 器 是 解决 线性 可 分 模式 分 类 问题 的 第 一 个 学 习 算法 。 而 由 
Widrow 和 Hoff(1960) 提出 的 最 小 均 方 算 法 (LMS) 是 第 一 个 解决 如 预测 和 信道 均等 化 等 问 
题 的 线性 自 适应 滤波 算法 。LMS 算法 的 提出 是 受到 了 感知 器 的 启发 。 尽 管 从 应 用 上 来 说 有 所 
不 同 ， 这 两 个 算法 之 间 有 一 个 共同 的 特征 : 它们 都 用 到 了 线性 组 合 器 (linear combiner), 因 而 
其 名 称 是 “线性 ”的 。 

。 今 人 惊奇 的 是 ，LMS 算法 自身 不 仅仅 可 以 作为 自 适 应 滤波 应 用 机 器 ， 它 还 可 以 作为 其 

他 自 适应 滤波 算法 的 评价 准则 。 这 里 面 的 原因 是 多 方面 的 : 
。 从 计算 复杂 度 来 说 ， 对 于 可 调 参 数 而 言 LMS 算法 的 复杂 度 是 线性 的 ， 这 使 得 算法 是 计 
算 高 效 (computationally efficient) 的 ， 而 算法 从 性 能 上 来 说 依然 是 有 效 的 。 

。 算法 可 以 简单 地 用 代码 来 实现 ， 因 而 是 容易 建立 的 。 

。 最 重要 的 是 ， 对 于 外 部 扰动 来 说 ,算法 是 鲁 裕 的 。 

从 工程 的 角度 来 说 ， 上 述 性 能 都 是 非常 需要 的 。 因 而 LMS 算法 能 够 经 受 住 时 间 的 考验 就 
一 点 也 不 奇怪 了 。 

本 章 中 ， 我 们 推导 LMS 算法 的 最 基本 形式 并 讨论 其 优点 和 局 限 。 更 重要 的 是 ， 这 里 所 讨 
论 的 素材 为 下 一 章 将 要 讨论 的 反 向 传播 算法 提供 了 基础 素材 。 


3.2 LMS 算法 的 滤波 结构 


图 3. 1 是 一 个 未 知 动态 系统 的 方 框图 ， 由 包含 元 素 zi CD ,xz (7),… ,xm(i) 的 输入 向 量 所 刺 
激 ， 其 中 i 是 刺激 (激励 ) 应 用 于 系统 时 的 瞬间 时 间 。 时 间 索 引 i 二 1,2,…,n 。 作 为 对 刺激 的 
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响应 ， 系 统 产 生 一 个 输出 y( 让 作为 响应 。 因 此 ， 此 系统 的 外 部 行为 由 下 述 数据 集 描述 : 
TX) di = 112 (3.1) 
其 中 
KG) = [x ,x Ci) stay) |" (3. 2) 
组 成 了 的 样本 对 根据 一 个 未 知 概率 法 则 是 同 分 布 的 。 输 和 人 问 量 xz 的 维 数 M 称 为 输入 空间 的 维 
数 (dimensionality of the input space)， 或 简称 为 输入 维 数 (input dimensionality). 


Th O— 


xf) O 








输入 


xD 





a) 


区 3.1 a) 未 知 动态 系统 ; b) 系统 日 适应 模型 的 信号 流 图 


刺激 向 量 x( 引 能 够 以 两 种 根本 不 同 的 方式 出 现 ， 一 种 是 空间 的 ， 为 一 种 是 时 间 的 : 
。 xD M 个 元 素 代表 空间 中 的 不 同 点 ， 在 这 种 情况 下 我 们 称 x( 让 为 数据 的 瞬 像 《snap- 
shot). 
。 xD) 的 M 个 元 素 代表 在 时 间 上 均匀 分 布 的 某 个 刺激 的 现在 和 “(M 一 1) 个 过 去 的 值 组 成 
的 集合 。 
我 们 面 对 的 问题 是 如 何 通 过 建立 一 个 简单 线性 神经 元 来 设计 未 知 动态 系统 的 一 个 多 输入 - 
单 输出 模型 。 这 个 神经 元 模型 是 在 一 个 算法 的 影响 下 运行 的 ， 此 算法 控制 对 神经 元 的 突 触 权 值 
的 必要 调整 ， 同 时 记 住 以 下 要 后 : 
。 此 算法 从 任意 设 定 的 一 个 神经 元 突 触 权 值 开始 。 
。 为 响应 系统 行为 的 统计 变化 ， 突 触 权 值 的 调整 是 建立 在 连续 的 基础 之 上 的 《 即 把 时 间 
加 进 算法 中 )。 
。 调整 突 触 权 值 的 计算 在 长 度 为 一 个 采样 周期 的 时 间 段 里 完成 。 
这 样 描述 的 神经 元 模型 称 为 自 适 应 滤波 器 (adaptive filter)。 虽 然 是 在 作为 系统 辨识 (system 
identification) 的 任务 背景 下 给 出 的 描述 ,但 自 适 应 滤波 表 的 特征 还 是 具有 很 广泛 的 应 用 。 
图 3. 1b 是 一 个 自 适应 滤波 器 的 示意 图 ， 它 的 运行 由 两 个 连续 过 程 组 成 ; 
1. 过 滤 过 程 ， 涉 及 两 个 信号 计算 ， 
。 一 个 输出 ， 记 为 y(i)， 它 被 产生 以 响应 刺激 向 量 xD 的 M 个 元 素 ， 即 a@saG@asr, 
amt). 
。 一 个 误差 信号， 记 为 e(1)， 它 是 通过 比较 输出 y(i) 和 未 知 系统 的 相应 输出 aC 让 而 获得 
的 。 从 效果 上 讲 ，d(i) 可 作为 一 个 期 望 响应 信号 (desired response) 或 者 目标 《tar- 
get) F. 
2. 自 适 应 过 程 ， 包 括 根 据 误 差 e(?) 对 神经 元 突 触 权 值 的 日 动 调整 。 
因此 ， 这 两 个 共同 运作 过 程 的 组 合 构 成 了 一 个 围绕 神经 元 运作 的 反馈 环 (feedback loop), 
如 图 3. lb 所 示 。 
因为 神经 元 是 线性 的 ， 输 出 y( 引 恰 为 诱导 局 部 域 v(i)， 即 


yli) = vli) = >) wt) (3. 3) 
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其 中 w (2) w: G) pw) 表示 在 时 刻 ;神经 元 的 M 个 突 触 权 值 。 利 用 矩阵 形式 可 以 把 y(2) 
表示 为 向 量 xOM wO ARER: 

yli) = x’ (2) wz) (3. 4) 
这 里 

wi) = Lw CG) ,vw Ci) ,wu (i) | 

注意 这 里 突 触 权 值 的 记号 已 被 简化 ， 它 不 包括 附加 的 标识 神经 元 的 下 标 ， 因 为 我 们 只 需要 处 理 
单个 神经 元 。 当 只 需要 考虑 单个 神经 元 时 ， 全 书 都 采用 这 种 记号 。 神 经 元 的 输出 y(z 要 与 未 知 
系统 在 时 刻 i 的 相应 输出 dC(i) (FIER. HR. vO RG &Ci) 不 等 : 因此 它们 的 比较 结果 得 到 了 
误差 信号 ， 

eli) = dCi) — y@) (3.5) 
误差 信号 eC(i) 用 来 对 神经 元 突 触 权 值 的 调整 进行 控制 的 方式 是 由 用 于 导出 自 适应 滤波 算法 的 代 
价 函 数 决 定 的 。 这 个 问题 与 最 优化 紧密 相关 。 因 此 可 以 回顾 一 下 无 约束 最 优化 方法 。 这 些 材 料 
不 仅 可 以 应 用 在 线性 自 适 应 滤波 器 上 ， 还 可 以 应 用 在 一 般 的 神经 网 络 上 。 


3.3 无 约束 最 优化 : 回顾 


考虑 代价 函数 名 Cw)， 它 是 一 个 对 未 知 权 值 (参数 ) 向 量 w 连续 可 微 (continuously differ- 
entiable) WAX. ARE kIT w 的 元 素 为 实数 。 它 是 一 种 度量 ， 用 来 选择 自 适应 滤波 算法 
的 权 值 (参数 ) 向 量 w 使 得 它 以 最 优 方式 运行 。 我 们 想 找到 一 个 最 优 解 w 满足 条 件 
6Cw* ) < E(w) (3. 6) 
也 就 是 说 ， 需 要 解决 一 个 无 约束 的 优化 问题 ， 即 


HE EMRE wR IA BREW), | 








最 优 性 的 必要 条 件 是 : 
Vé(w*) = 0 (3.7) 
这 里 V 是 梯度 算 子 (gradient operator), 
| Ole SO ig Ot a 
ae EE | C8 
同时 YEC(w) 是 代价 函数 的 梯度 向 量 (gradient vector), 
[28 38 38T 
Vlw) E | 23 "Sw f | C3. 9) 


(对 于 向 量 的 微分 在 本 章 结 束 部 分 的 注释 1 中 讨论 )。 

一 类 特别 适合 自 适 应 滤波 八 设 计 的 无 约束 最 优化 算法 是 以 局 部 迭代 下 降 (iterative de- 

scent) 思想 为 基础 的 : 

从 一 个 初始 估计 值 Ww(0) 开 始 ， 产 生 一 系列 权 值 向 量 W(1),W(2),…，, RFA BREW) 

在 算法 的 每 次 选 代 中 都 要 下 降 ， 即 
Elwin 十 1)) < Cw) ) (3. 10) 

这 里 W(n) 是 权 值 向 量 的 旧 值 而 w(2a 十 1) 是 它 的 更 新 值 。 

我 们 希望 算法 最 终 收 敛 到 最 优 解 w* 。 我 们 说 “希望 ”是 因为 除非 采取 特别 的 预防 措施 ， 
算法 有 可 能 发 散 〈 即 变 得 不 稳定 )。 

在 这 一 节 我 们 描述 三 种 以 迭代 下 降 思 想 这 种 或 那 种 形式 为 基础 的 无 约束 最 优化 方法 
(Bertsekas, 1995), 
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最 速 下 降 法 
在 最 速 下 降 法 中 ， 对 权 值 向 量 w 的 连续 调整 是 在 最 速 下 降 的 方向 进行 的 ， 即 它 是 与 梯度 向 
量 YE(w) 方 回 相 反 的。 为 了 表示 的 方便 ， 记 为 
g = VE(Cw) (3.11) 
因此 ， 最 速 下 降 法 一 般 表 示 为 
w(n +1) = wn)— ng(n) (3. 12) 
这 里 7 了 是 一 个 正常 数 ， 称 为 步 长 (stepsize) 或 学 习 率 参数 Clearning- rate parameter), a(n) 
是 在 wA AEREE., EMAER a Bln +1 的 过 程 中 算法 应 用 修正 : 
Aw(n) = wnt1)— wn) =— nn) (3. 13) 
式 (3. 13) 实 际 上 是 导言 中 描述 过 的 误差 修正 公式 的 标准 形式 。 
为 了 证 明 最 速 下 降 法 的 公式 满足 式 (3. 10) 的 迭代 下 降 条 件 ， 我 们 用 wn) 附 近 的 一 阶 泰 勒 
(Taylor) 级 数 展开 来 通 近 名 Cw(n 十 1))， 即 
ECw(n + 1)) = ECw(n)) + gn) Aw(n) 
上 式 对 小 的 7 是 适用 的 。 在 这 个 近似 关系 式 中 代入 式 (3. 13) 得 到 ， 
ECw(n + 1)) ~ ECw(n)) — qg gn) = ECw(n)) — yl g(r) |? 
ee 对 正 的 学 习 率 参数 1， 代价 函 数 每 次 迭代 都 是 下 降 的 。 但 这 里 提供 的 推导 是 近似 
的 ， 只 有 当 学 习 率 足够 小 时 才 是 正确 的 。 
最 速 下 降 法 收敛 到 最 优 解 w 的 速度 是 很 慢 的 。 此 外 ， 学 习 率 参数 y 对 收敛 行为 有 重要 影响 : 
© Sy) WN, 算法 的 瞬时 响应 是 平缓 的 (overdamped)， 这 是 由 于 wn) 的 轨迹 是 W 
平面 的 一 个 光滑 曲线 ， 如 图 3. 2a 所 示 。 
。 当 ww 大 的 时 候 ， 算法 的 瞬时 响应 是 剧烈 的 (underdamped)， 这 是 由 于 w(z2) 的 轨迹 是 句 
A Gri) Wi, WE 3. 2b 所 示 。 
。 当 7 超 过 了 某 一 临界 值 时 ， 算 法 是 不 稳定 的 〈 即 不 收敛 )。 





图 3.2 最 速 下 降 法 关于 学 习 率 参数 的 不 同 值 在 二 维 空间 的 轨迹 。a) DH ys b) 大 的 7。 坐标 w 和 w 是 
权 值 向 量 w 的 元 素 ; 它们 都 位 于 W 平 面 中 


牛顿 法 

” “下面 介绍 牛顿 法 (Newton’”s method) ， 这 是 更 复杂 的 最 优化 技术 。 和 牛顿 法 的 基本 思想 是 
最 小 化 代价 函数 名 (w) 在 当前 点 w(z) 周 围 的 二 次 近似 值 ; 最 小 化 在 算法 的 每 次 迭 代 中 都 要 进行 。 
具体 来 说 ， 利 用 代价 琢 数 在 点 w(n) 周 围 的 二 次 泰勒 级 数 展开 式 ， 我 们 得 到 : 


AE€(w(n)) = Ewn t 1)) — Bw)) ~ g' Cn) Awla) + = Aw? (n)H(n) Aw(n) (3. 14) 
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和 以 前 一 样 ，g(n) 是 代价 函数 包 (w) 在 点 w(z) 处 的 MX1l 梯度 向 量 。 和 矩阵 Ha) ECW) E win) 
HJ m Íg m Fl) Hessian ÆRE, ECw) AY Hessian PRE WH: 


























oe E a E oY E 
Ow) OW OW OW OWN 
F E F € o € 
H = V2 E(w) = | dw: dw OW OW OW (3. 15) 
G E o E z E 
OwWMdw, DwydAw, wM 
式 (3. 15) 需 要 代价 函数 地 w) 关 于 w 的 元 素 二 阶 连续 可 微 。 将 式 (3. 14) 对 Aw 微分 !， 当 
g(7) + Hn)Aw(n) = 0 
时 ,我 们 最 小 化 了 改变 量 ASW), BEREX Aw HT BBS: 
Aw(n) =— H'(n) gn) 
也 就 是 
win+1) = wln) + Aw(n) = wn) — H'(n)g(n) (3. 16) 


这 里 H (nd) ECW) AY Hessian 矩阵 的 道 。 

一 般 来 说 ， 牛 顿 法 收敛 得 很 快 ， 而 且 不 会 出 现 最 速 下 降 法 有 时 会 出 现 的 锯齿 形 情 况 。 但 是 ， 
应 用 和 牛顿 法 时 ，Hessian 矩阵 必须 对 每 个 2 都 是 正定 扎 阵 。 遗 憾 的 是 ， 一 般 不 能 保证 在 算法 的 每 
IFA Hn) 都 是 正定 和 矩阵。 假如 Hessian FH H(n) 不 正定 ， 对 牛顿 法 进行 修正 就 有 必要 
(Powell, 1987; Bertsekas，1995)。 在 很 多 时 候 ， 和 牛顿 法 的 最 主要 局 限 在 于 其 计算 复杂 度 。 
Gauss-Newton 法 

为 了 处 理 牛 顿 法 的 计算 复杂 度 而 不 对 其 收敛 行为 做 太 严 重 的 让 步 ， 可 以 使 用 Gauss- New- 
ton 法 。 为 了 应 用 这 一 方法 ， 我 们 采用 表示 为 误差 平方 和 的 代价 消 数 。 令 

CW Tew (3. 17) 


这 里 尺度 因子 1/2 是 为 了 简化 下 面 的 分 析 。 此 公式 中 所 有 的 误差 项 都 是 以 权 值 向 量 w 为 基础 计 
算得 来 的 ， 这 里 w 在 遍及 1 委 : 委 2 的 全 部 观察 区 间 内 固定 。 

误差 信号 eG) eA AA ele w 的 晒 数 。 给 定 操作 点 w(n)， 通 过 引入 下 面 新 的 项 来 线性 
化 eci Xt w 的 依赖 性 : 








e (iw) = ety + | P| X Cw— wn), 1 一 ,27 
OW Jw=w 
用 和 矩阵 记号 可 写成 等 价 的 形式 : 
e (nsw) = eln) + J(n) (w— wn)) (3. 18) 


其 中 el(n) 是 误差 问 量 
eln) = [el(l),el2), ,eln)] 
Jn) elm) H nXm Jacobi RẸ. 





OW) OW OWM 

Oe(2) Əel2) 9e(2) | 
Jin) = | Ow OW? Own (3.19) 

oe(n) eln) eln) 

ow) OW» OWm w= why) 
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Jacobi 矩阵 JD mX n 梯度 矩阵 Ve(z) 的 转 置 ， 这 里 
V e(n) = [Vecl) »V e(2) ate V e(n) | 
现在 更 新 后 的 权 值 向 量 w(n 十 1) 定 义 为 


w(n-+1) = arg min| = | e (n,w) ||? (3. 20) 
利用 式 (3. 18) 来 评估 e (n,w) 的 欧 几 里 得 范 数 的 平方 ， 得 到 
= le’ Gnw) ||? = = | ecm) |? Le? (2) IG) (w— wn) + W= wd)? In) (w— wn)) 


因此 ， 将 以 上 表达 式 对 wORRMAIFRARNS, fasl 
J (neln) +3 (da JG) (w— wn) = 0 
从 这 个 方程 中 解 出 W, 考虑 到 式 (3. 20), WEA: 
win +1) = win) — JIC) TY (Ca)e(2) (3.21) 
上 式 描 述 了 Gauss- Newton 方法 的 纯粹 形式 。 
不 像 牛顿 法 必须 知道 代价 薄 数 如 (n) 的 Hessian 矩阵 ，Gauss- Newton 法 只 需要 知道 误差 回 
量 eC(n) 的 Jacobi 和 矩阵 。 但 是 ， 为 了 使 Gauss-Newton Eai A, EERE J DID om 
是 非 奇 异 的 。 
关于 后 一 点 ， 我 们 认识 到 DI) BRIERE. AT RUE AE AHH. Jacobi 矩阵 
J(z) 的 行 秩 必 须 是 n; 也 就 是 说 ， 式 (3.19) 中 J(n) 的 1 行 必须 是 线性 无 关 的 。 遗 憾 的 是 ， 我 
们 并 不 能 保证 这 个 条 件 总 能 满足 。 为 了 防止 J(n) 的 秩 亏 损 ， 通 常 的 办 法 是 给 矩阵 J WIC i 
一 个 对 角 和 矩阵 Si， 其 中 工 是 单位 矩阵 。 参 数 8 是 一 个 小 的 正常 数 ， 它 的 选择 必须 保证 
J CMIM 十 SI 对 所 有 ?都 是 正定 的 
在 这 个 基础 上 上 ，Gauss-Newton 法 以 下 面 的 微小 修正 形式 来 实现 : 
wln +1) = wln) — FIG) + ol Tn)eln) (3. 22) 
EAR URE n 不 断 增 大 时 ， 增 加 项 8I 的 影响 是 逐渐 减少 的 。 同 时 注意 递归 式 (3. 22) 是 修正 代 
价 函 数 


Bw = {e+elw— wn |’) (3. 23) 


的 解 ， 其 中 wm) 是 权 值 向 量 wa) A AE. 

在 信号 处 理 的 文献 中 ， 式 (3. 22) 中 的 增加 项 SI 称 为 对 角 加 载 (diagonal loading) 。 这 一 项 
的 增加 是 为 了 将 代价 函数 名 (w) 扩 展 为 式 (3. 23) 的 方式 ， 这 里 我 们 就 有 两 个 项 (忽略 尺度 因子 
1/2): 


。 第 一 项 >a : (让) 是 误差 平方 的 和 ， 依 赖 于 训练 数据 。 


。 第 二 项 包含 欧 几 里 得 范 数 的 平方 | w—w(n) 上 ， 依 赖 于 滤波 器 结构 。 实 际 上 ， 这 一 
相当 于 稳定 器 (stabilizer). 
尺度 因子 8 通常 称 为 正则 参数 (regularization parameter) ， 代 价 函 数 的 结果 修正 相应 地 称 
为 结构 正则 化 (structural regularization) 。 正 则 化 问题 将 在 第 7 章 详细 讨论 。 


3.4 维 纳 滤波 背 


第 2 章 讨论 了 通常 的 最 小 二 乘 估计 器 ， 那 里 利用 极 小 化 的 传统 方法 来 从 环境 的 观测 模型 中 找 
到 最 小 二 乘 解 。 为 了 和 本 章 采 用 的 术语 相 一 致 ， 我 们 将 之 称 为 最 小 二 乘 滤波 器 (least-squares fil- 
ter) 。 而 且 ， 我 们 将 利用 Gauss- Newton 法 来 重新 推导 这 个 滤波 筑 的 公式 。 

我 们 利用 式 (3. 3) 和 式 (3. 4) 来 定义 如 下 的 误差 向 量 : 
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e(n) = dn) —[x(1),x(2), e, x(n)] wm) = dln) — Xn) wn) (3. 24) 
其 中 dai nX 1 的 期 望 响应 向 量 ， 
d(n) = [d(1).d(2),*+,d(n) ]" 
X(n) fi nX M HB, 
X(n) = [x(n),x€2),°,x(n) ]" 
误差 向 量 el(n) 对 wn) BG AD 4G Bl E E E: 
Ve(n) =— X" (n) 
AB HL, e(a) AY Jacobi 矩阵 是 
J6n) =— X(n) (3. 25) 
因为 误差 式 (3. 18) 对 权 值 向 量 woa) 已 经 是 线性 的 ， 如 下 所 示 的 Gauss- Newton 法 在 一 次 迭代 
后 收 化 。 将 式 (3.24) 和 式 (3.25) 代 入 式 (3. 21) 得 到 
win +1) = wen) + CX? (2) X(n) XT (n) (d(n) — Xn) wn)) 


= (X?(n)X(n))' X (Cn) d(n) (3. 26) 
项 (XEMX C XT (WD RAE EAT X) 的 伪 道 (pseudoinverse) Bf’ 
X* (n) = (CX? (mn) X(n)) TX" Can) (3s 27) 
因此 ， 可 以 把 式 (3. 26) 改 写 为 紧凑 的 形式 : 
wln +1) = X° (n)d(n) (3. 28) 


这 个 公式 表示 了 下 面 所 陈述 的 一 个 简便 途径 : 


RAF wln 十 1) 求 解 定 义 在 持续 时 间 nn 的 一 个 观察 区 间 上 的 线性 最 小 二 乘 问题 ， 有 是 如 下 
两 项 的 乘积 ， 伪 递 X+(z) 和 期 望 的 响应 向 量 dla), 


Wiener 滤波 器 : 遍历 环境 下 线性 最 小 二 乘 滤 波 器 的 极限 形式 
Ay w, 表示 线性 最 小 二 乘 滤波 器 关于 观测 数 n 的 极限 形式 ， 人 允许 4 趋 于 无 穷 。 可 以 利用 式 


(3. 26) 得 到 ， 
w, = limw(n+ 1) = lim(X hn) X(n)) ` X" (n)d (n) 


= lim(2x"(n)X(n)) x lim LXT (n)d(n) (3, 29) 
现在 假设 输入 向 量 x(i) 和 相应 的 期 望 响应 d(i) 来 自 于 联合 遍历 (ergodic) 平稳 环境 。 我 


们 可 以 用 时 间 均 值 来 代替 总 体 均值 。 由 定义 ,输入 向 量 x(i) 的 相关 和 矩阵 (correlation matrix) 


的 总 体 平 均 形 式 是 
Ra = E[x(1)x' (71) | (3. 30) 


并 且 ， 相 应 地 ， 输 入 向 量 x(G) 和 期 望 啊 应 d (i) 之 间 的 互相 关 癌 量 (cross- correlation vector) 


的 总 体 平均 形式 是 
ra EL x (Ci)d C2) | (3. 31) 


其 中 E 表 示 期 望 算 子 。 从 而 ， 在 遍历 假设 下 ， 有 
R.. = lim EXCXT (n) 
和 
ry, = limX Cn) d(n) 


相应 地 ， 可 以 把 式 (3. 29) 改 写 为 用 总 体 平均 相关 参数 来 表示 : 
W = Ra Va (3. 32) 


这 里 Rz: 是 相关 矩阵 Re- 的 道 。 式 (3. 32) 是 由 式 (2. 32) 定 义 的 最 小 二 乘 解 的 总 体 平均 版 本 。 
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权 值 问 量 w, 称 为 线性 最 优 滤波 问题 的 维 纳 解 (Widrow and Stearns, 1985; Haykin, 2002), 
因此 ， 我 们 可 以 做 以 下 的 陈述 : 
对 一 个 遍历 过 程 ， 当 观察 样本 数 趋 于 无 穷 时 ， 线 性 最 小 二 乘 滤波 器 渐进 趋 于 维 纳 滤波 器 。 


设计 维 纳 滤波 器 需要 二 阶 统计 量 的 知识 : 输入 向 量 x(n) A SR. 和 x(n) 与 期 望 响应 
dm WERE rz 。 但 是 ， 在 实际 遇 到 的 很 多 环境 下 ， 这 些 信 息 都 是 未 知 的 。 我 们 可 以 利 
用 线性 自 适 应 滤波 器 (linear adaptive filter) 来 处 理 未 知 的 环境 ， 目 适应 在 这 里 的 意思 是 滤波 
器 能 够 调整 自己 的 自由 参数 来 响应 环境 的 统计 变化 。 在 连续 时 间 茜 础 上 做 这 类 调整 的 一 个 流行 
的 算法 是 最 小 均 方 算法 ， 下 面 来 讨论 这 一 算法 。 


3.5 最 小 均 方 算法 
最 小 均 方 (least mean square, LMS) 算法 的 建立 是 极 小 化 代价 函数 的 瞬时 值 ， 代 价 函 数 为 





Ew) = Fe Cn) (3. 33) 
这 里 e(n) 是 nn 时刻 测 得 的 误差 信和 号。 把 ECW) 对 权 值 向 量 w 求 微 分 得 到 
OEW) _ oe(n) 
ae e(n) Ea (3. 34) 
如 同 在 最 小 二 乘 滤 波 器 上 一 样 ，LMS 算法 运行 在 一 个 线性 神经 元 上 ， 可 以 把 误差 信号 表示 为 : 
eln) = d(n) —x'(n) wn) (3. 35) 
因此 
deln) 
awn) 
和 
OEW) 
a win) x(n)e(n) 
把 后 者 作为 梯度 向 量 的 一 种 瞬间 估计 (instantaneous estimate), A] ic 
a(n) =— x(n)e(n) (3, 36) 
最 后 ， 利 用 式 (3. 36) 作 为 式 (3. 12) 中 的 最 速 下 降 法 的 梯度 向 量 ， 可 以 写 出 LMS 算法 公式 : 
Cn 十 1) = wn) x(n)etn) (3. 37) 


这 里 值得 注意 的 是 学 习 率 参数 7 的 倒数 可 以 用 于 度量 LMS 算法 的 记忆 (memory): 4 7 A 
值 越 小 ，LMS 算法 将 记忆 的 过 去 数据 就 越 多 。 因 此 ，7 值 小 的 话 ，LMS 算法 执行 得 更 精确 ， 
但 算法 的 收敛 速度 慢 。 

在 式 (3. 37) 的 推导 中 ， 我 们 用 六 (代替 w(n) 来 强调 这 样 一 个 事实 : 利用 最 速 下 降 法 可 以 
得 到 一 个 权 值 向 量 , 而 LMS 算法 产生 该 权 值 向 量 的 一 个 瞬时 估计 值 。 所 以 , 使 用 LMS 算法 
时 我 们 牺 竹 掉 最 速 下 降 法 的 一 个 明显 特征 。 在 最 速 下 降 法 中 ， 对 一 个 给 定 的 7， 权 值 回 量 wa) 
在 权 值 空间 中 遵循 一 个 明确 定义 的 轨迹 。 对 比 之 下 ， 在 LMS 算法 中 ， 权 值 向 量 W(n) 则 跟踪 一 
个 随机 的 轨迹 。 由 于 这 个 原因 ，LMS 算法 有 时 也 被 称 为 “随机 梯度 算法 ”。 当 LMS 算法 的 选 


代 次 数 趋 于 无 限时 ，w(n) 在 维 纳 解 w, 周围 随 | 表 3.1 LMS 算法 小 结 
机 行走 (布朗 运动 )。 一 个 重要 的 事实 是 ， 与 TAPE, ler a 
最 速 下 降 法 不 同 ，LMS 算法 不 需要 知道 环境 用 户 选择 参数 ;7 
` ‘ ye “or 初始 化 :， Heo) =0 
的 统计 特性 。 从 实际 角度 来 看 ，LMS 的 这 eo ee 
特征 是 非常 重要 的 。 e(n) = d(n) — 7 (n) x(n) 


表 3. 1 基于 式 (3. 35) 和 式 (3.37) 对 LMS —— SOTOA T ai eh) 一 
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算法 做 了 小 结 ， 它 清楚 表明 这 种 算法 的 简单 性 。 如 该 表 所 示 ， 对 于 算法 的 初始 化 ， 可 以 简单 
地 设 算法 中 的 权 值 癌 量 初始 值 为 多 (0) 一 0。 
LMS 算法 的 信号 流 图 表示 

结合 式 (3. 35) 和 式 (3. 37) ， 可 以 把 LMS 算法 中 的 权 值 向 量 演变 过 程 表示 如 下 : 

wn +1)= wn) 十 nx(n)Ld(n) — x’ (n) Wn) | 
= LI— yx(n)x (n) | WOD + x(n) d(n) 
这 里 工 是 单位 矩阵 。 通 过 运用 LMS 算法 ， 我 们 认识 到 
Wn) = z [Wntt 1)] (3. 39) 

这 里 z ! 是 单位 时 间 延 迟 算 子 Cunit-time delay operator)， 意 味 着 存储 。 利 用 式 (3. 38) 和 式 
(3. 39) ， 我 们 就 可 以 用 图 3. 3 描绘 的 信号 流 图 来 表示 LMS 算法 。 这 个 信号 流 图 揭示 LMS 算法 
是 随机 反馈 系统 的 一 个 实例 。 反 馈 的 出 现 对 LMS 算法 的 收敛 行为 有 重要 影响 。 


(3. 38) 
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HX (n)x! (n) 
图 3.3 LMS 算 法 的 信号 流 图 表示 


3.6 用 马尔 可 夫 模 型 来 描画 LMS SA FAE AE A RY a 


为 了 给 LMS 算法 提供 一 种 统计 分 析 ， 我 们 发 现 利用 下 式 定 义 的 权 值 误差 向 量 (weight-er- 
ror vector) 更 加 方便 : 
eln) = w, — Wn) (3. 40) 
其 中 w, 是 由 式 (3. 308 LOBRAAH,. WO) 是 相应 的 由 LMS 算法 计算 的 权 值 向 量 的 佑 
计 。 因 此 ， 利 用 术语 eC(n)， 假 设 其 为 一 个 状态 (state)， 可 以 将 式 (3. 38) 重 写 为 紧凑 形式 : 


eln t 1) = A(n)e(n) + f(r) (3. 41) 
这 里 ， 我 们 有 
A(n) 一 工 一 17XKCND)X (n) (3. 42) 
其 中 工 是 单位 矩阵 。 式 (3. 41) 右 边 附 加 的 噪声 项 由 下 式 定 义 : 
f(n) 一 一 nx(nde,(n) (3. 43) 
其 中 
e,(n) = d(n) — wi x(n) (3. 44) 


是 由 维 纳 滤波 产生 的 估计 误差 。 
式 (3.41) 表 示 LMS 算法 的 马尔 可 夫 模 型 (Markov model)， 这 一 模型 的 特征 如 下 所 示 : 
。 模型 的 更 新 状态 (updated state) ， 由 向 量 s(n 十 1) 定 义 ， 依 赖 于 老 的 状态 eC), HA 
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依赖 性 由 转移 皂 阵 (transition matrix)A(n) 定 义 。 
。 EME ”上 状态 的 演化 被 内 部 所 产生 的 噪声 fa) 所 扰动 ， 这 一 噪声 扮演 着 “驱动 力 ” 
的 角色 。 
图 3.4 给 出 了 表示 这 一 模型 的 向 量 值 信号 流 图 。 标 志 为 z ”I 的 分 支 表 示 模 型 的 记忆 ，z 
作为 单位 时 间 延 迟 算 子 ， 由 下 式 定 义 : 
z [eln +1)] = eln) (3. 45) 
和 图 3.3 相 比 ， 这 个 图 中 用 紧凑 形式 重点 强 调 
了 LMS 算法 中 的 反馈 过 程 。 
图 3.4 的 信号 流 图 以 及 相应 的 方程 提供 了 
在 小 学 习 率 参 数 y 的 假设 LMS 算法 收敛 性 e(n) T E E > 


f(n) 






分 析 的 框架 。 然 而 ， 在 进行 这 一 分 析 之 前 ， 我 
们 简要 地 介绍 实现 这 一 目标 所 需 的 两 个 基础 知 
识 : 在 3.7 节 中 介绍 的 朗 之 万 方程 ， 以 及 随后 
的 3. 8 节 中 的 Kushner 直接 平均 法 。 有 了 这 两 


个 基础 知识 ， 我 们 将 在 3.9 节 中 继续 学 习 图 3.4 表示 由 式 (3.41) 所 描述 的 
LMS 算法 的 收 伍 分 析 。 马尔 可 夫 模 型 的 信号 流 图 


3.7 朗 之 万 方程 : 布朗 运动 的 特点 


对 3. 5 节 结 束 部 分 的 评论 用 更 精确 的 术语 重新 叙述 ， 考 虑 稳定 性 和 收敛 性 ， 我 们 可 以 说 
LMS 算法 (对 足够 小 的 wn) 从 未 达到 完美 的 稳定 或 者 收敛 条 件 。 而 且 ， 在 大 量 的 迭代 时 间 步 n 
之 后 ， 算 法 到 达 “ 擅 平衡 ”条 件 ， 这 从 定性 上 讲 ， 可 由 算法 围绕 着 维 纳 解 执行 布朗 运动 来 摘 
述 。 这 一 类 统计 行为 可 通过 非 平衡 热力 学 : 的 朗 之 万 方程 (Langevin equation) 来 很 好 地 解释 。 
因而 ， 我 们 贫 开 一 下 简要 地 介绍 这 一 重要 方程 。 

令 v(t) 定 义 质量 为 m HRW RAR ORE. RRA EBD ER RK 
来 的 速度 被 视 为 重要 的 。 然 后 ， 由 均 分 热力 学 原理 Cequipartition law of thermodynamics), AL 
子 的 平均 能 量 由 下 式 定 义 : 


= Ele (21)] = ksT 对 所 有 连续 时 间 上 + (3. 46) 


其 中 ks W Boltzmann 常数 ， 工 为 绝对 温度 (absolute temperature). KEES BD FE A Fa 
的 总 驱动 由 两 部 分 组 成 : 

1. 依据 Stoke 定律 〈Stoke's law) 的 等 于 一 av(?) 的 阻尼 力 (damping force), HH a ER 
擦 系数 ; 

2, 涨 落 力 (fluctuating force) Fj(t)， 其 性 质 是 平均 指定 的 。 

粒子 的 运动 方程 在 缺少 外 部 驱动 时 由 下 式 给 定 : 


m a =— gv(t) +F; 0) 
两 边 同 时 除 以 m, RNA 
P = yo) +P) (3. 47) 
其 中 
ye (3. 48) 
mi 
和 
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rn) = Fe) 
m 


(3. 49) 
项 T(t) 是 每 单位 质量 涨 落 力 (fluctuating force per unit mass); A A E Ik Hi THART KIIRA 
大 量 的 原子 数 的 位 置 ， 所 以 它 是 一 个 统计 驱动 力 ， 它 处 于 常 的 不 规则 运动 状态 。 式 (3. 47) 称 为 
并 之 万 方程 (Langevin equation), TORRA AZ 5 A (Langevin force)。 朋 之 万 方程 描述 了 在 
粘 滞 铃 中 所 有 了 时间 下 粒子 的 运动 (如 果 其 初始 条 件 是 指定 的 )， 它 是 描述 非 平 衡 热 力学 的 第 一 
个 数学 公式 ， 

在 3.9 节 中 ， 我 们 将 证 明 LMS 算法 的 一 个 变换 版 本 具有 和 朗 之 万 方程 的 离散 时 间 版 本 相 

同 的 数学 形式 。 但 在 证 明之 前 ， 需 要 给 出 下 一 个 基础 知识 。 


3.8 Kushner 直接 平均 法 


41) 的 马尔 可 夫 模 型 是 非 线性 随机 差分 方程 (nonlinear stochastic difference equa- 
tion) 。 这 一 方程 是 非 线 性 的 是 因为 转移 矩阵 A(n) 依 赖 于 输入 向 量 x(Cz) 的 外 积 x(x’ (Co), A 
此 ， 权 值 误差 向 量 eln 十 1) 对 于 x(Cz) 的 依赖 性 和 受 加 原则 相 冲 突 ， 而 这 一 原则 是 线性 的 需要 。 
而 且 ， 方程 是 随机 的 是 因为 训练 样本 {x(n), din) 是 从 随机 环境 中 取得 的 。 有 了 这 两 个 事 
实 ， 我 们 发 现 对 LMS 算法 作 严 格 的 统计 分 析 是 很 困难 的 任务 。 

然而 ， 在 一 定 的 条 件 下 ，LMS 算法 的 统计 分 析 能 够 通过 将 Kushner 直接 平均 法 CKushner’s 
direct- averaging method) 应 用 于 式 (3. 41) 的 模型 而 显著 地 简化 。 对 这 一 方法 的 正规 陈述 ， 我 们 做 
如 下 说 明 (Kushner, 1984): 


考虑 由 马尔 可 夫 模 型 所 描述 的 随机 学 习 系 统 : 
eln +1) = A(n)e(n) + f(r) 
其 中 ， 一 些 输 入 向 量 xX(n)， 我 们 有 
ACn) = I— nx(n)x (n) 
而 且 附 加 噪声 fm) 是 由 学 习 率 参数 九 线性 拉 伸 的 。 有 
。 学 习 率 参数 了 是 充分 小 的 。 
MA Efan) 本 质 上 独立 于 状态 eln), 人 
式 来 描述 : 
eo(n+1) = Ala)eo (n) + fy Cn) (3. 50) 
ACn) = I— 7E[ x(n) x" Cn) ] (3.51) 
实际 上 ， 对 于 所 有 的 n 和 原始 的 马尔 可 夫 模 型 是 一 样 的 。 


式 (3. 51) 的 确定 矩阵 A(n) 是 修正 马尔 可 夫 模 型 的 转移 矩阵 ， 我 们 用 eo (来 表示 修正 马尔 
可 夫 模 型 的 状态 ， 用 来 强调 这 一 模型 随时 间 的 演化 仅 在 微小 的 学 习 率 参数 了 的 有 限 情况 下 等 同 
于 原始 马尔 可 夫 模 型 。 | 

式 (3. 50) AIS (3. 51) 的 证 明 在 习题 3. 7 中 给 出 ， 假 设 刀 历 性 〈 即 用 时 间 平 均 来 代替 总 体 平 
均 )。 由 这 里 的 讨论 可 以 充分 说 明 : 

1. 如 前 所 述 ， 当 学 习 率 参数 y 小 的 时 候 ，LMS 算法 具有 长 记忆 (long memory), Am, 
更 新 状态 go (nn 十 1) 的 演化 可 以 通过 时 间 步 一 步 一 步 追 踪 所 有 的 路 径直 到 初始 条 件 e0). 

2. 当 ? 小 的 时 候 ， 可 以 在 go Cn 十 1) 的 展开 式 序列 中 忽略 二 阶 和 高 阶 项 。 

3. 最 后 ， 式 (3. 50) 和 式 (3. 51) 中 的 陈述 可 以 通过 调用 遍历 性 来 得 到 ， 此 时 总 体 平均 为 时 
间 平 均 所 替代 。 
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3.9 小 学 习 率 参数 下 统计 LMS 学 习 理 论 


现在 我 们 已 经 有 了 Kushner 直接 平均 法 ， 该 到 建立 LMS 算法 的 统计 分 析 原 则 的 阶段 了 。 
我 们 做 三 个 合理 的 假设 ， 
Bik]: 学 习 率 参数 了 是 小 的 
通过 这 一 假设 ， 我们 证 明 可 以 应 用 Kushner 直接 平均 法 一 因此 采用 式 (3. SORMA. SDD 的 
修正 马尔 可 夫 模 型 作为 LMS 算法 的 统计 分 析 的 基础 。 
SCRA, yn 的 小 的 选择 也 是 有 意义 的 。 特 别 是 ， 当 了 小 时 ，LMS 算法 对 于 外 部 扰动 是 
鲁 棒 的 ; 鲁 棒 性 问题 将 在 3.12 PH. 
BI: SEAVER ae EAT RA ec. (HAAR 
如 果 期 望 响 应 的 产生 是 由 如 下 的 线性 回归 模型 Clinear regression model) 所 描述 的 ， 这 个 
假设 就 会 满足 : 
d(n) = wix(n) + e,n) (3:52) 
式 (3. 52) 是 式 (3. 44) 的 简单 的 重 写 ， 这 实际 上 说 明了 维 纳 滤波 的 权 值 向 量 和 描述 感 兴 趣 随机 环 
境 的 回归 模型 的 权 值 向 量 是 匹配 的 。 
BEI: 输入 向 量 x(2) 和 期 望 响应 d(n) 是 联合 高 斯 分 布 
由 物理 现象 产生 的 随机 过 程 频繁 地 出 现 使 得 高 斯 模型 是 适当 的 一 因此 第 三 个 假设 得 到 了 
验证 。 
不 需要 对 LMS 算法 的 统计 分 析 作 更 多 的 假设 (Haykin，2002，2006)。 下 面 我 们 讲述 这 
一 分 析 的 精简 版 本 。 
LMS 算法 的 固有 模式 
AYR, 定义 输入 向 量 x(n) 的 总 体 平均 相关 和 矩阵，x(n) 由 稳定 过 程 产生 ; BI 
R- 一 ELx(z)x (n) J (3. 53) 
相应 地 ， 可 以 将 式 (3. 51) 的 平均 转移 矩阵 表达 为 修正 马尔 可 夫 模 型 ， 
A= ELI — 7 x(n)x"(n) | 
= [I— 7R., | (3.54) 
然后 将 式 (3. 50) 展 开 为 下 面 的 形式 : 
eo (n + D = (1— y Ra eo (nm) + fo Cn) (3.55) 
其 中 f,(n) 是 附加 噪声 。 今 后 ， 式 (3. 55) 将 作为 LMS 算法 统计 分 析 的 基础 公式 。 
LMS 算法 的 固有 模式 
应 用 和 矩阵 理论 和 中 对 相关 和 矩阵 Ro 的 正 交 变换 ， 我 们 有 
QTR.Q=A (3. 56) 
其 中 Q 是 正 交 和 矩阵 ， 其 列 是 Re 的 特征 向 量 ， 且 A 是 对 和 角 和 矩阵 且 其 对 角 元 素 是 相应 的 特征 值 
(eigenvalue)。 将 这 一 变换 引申 到 式 (3.55) 的 差分 方程 产生 相应 的 解 辜 一 阶 方程 系统 (system 
of decoupled first-order equations) (Haykin, 2002, 2006): 


u(n+1) = O gà dulnn tAn), k= 1,2, M (3. 57) 
其 中 MBRAM RW HER. WO, vu (是 变换 后 权 值 误差 向 量 的 第 kT: 
vin) = Qe, (n) (3. 58) 
WA, A, 2) EEM RE ER & TOR: 
b(n) = QTE, Cn) (3. 59) 
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ERAR, b MESEK OTT FEA pl J mind 的 昌 躁 过 程 的 样本 函数 ， 其 中 Jean 为 由 维 纳 滤波 
器 产生 的 最 小 均 方 误差 。 实 际 上 ， 式 (3. 57) 的 第 & 个 差分 方程 的 0 -均值 驱动 力 的 方差 和 相关 
矩阵 R WR PAMELA, 成 正比 。 


定义 差分 : 
Av, Cn) = u(n+1)—u,(n) kh=1,2,°°,M (3. 60) 
可 以 将 式 (3. 57) 写 为 如 下 形式 : 
Au, (n) =— apo; + pi Cn) k=1,2,°°,.M (3. 61) 


随机 方程 (3.61) 可 以 认为 是 式 (3. 47) 的 朗 之 万 方程 的 离散 时 间 版 本 。 特 别 地 ， 我 们 一 项 项 比 
较 这 两 个 公式 ， 可 以 给 出 如 表 3. 2 所 列 出 的 类 比 关系 。 受 这 个 表 的 启发 ， 我 们 可 以 给 出 如 下 重 
要 陈述 ; 

差分 方程 (3.55) 的 正 交 变 换 的 应 用 结果 所 得 到 的 LMS 滤波 器 的 收敛 行为 ， 可 以 通过 具 
有 M 个 解 耦 朗 之 万 方程 的 系统 来 描述 。 其 第 开 个 分 量 的 特点 如 下 所 示 : 

© 阻尼 力 由 nArvi(n) 定 义 ; 

。 ALAA Wn) KHER OŽA Jandi ORB 

更 重要 的 是 ， 朗 之 万 力 h(n) xt F LMS R32 朗 之 万 方程 (连续 时 间 ) 和 变换 后 的 
算法 的 非 平 衡 行为 负责 ， 它 证 明了 自身 在 大 量 ee eee 
的 足够 多 的 迭代 次 数 ”的 时 候 ， 算 法 在 最 优 维 FRSA OTD a 
纳 解 的 周围 进行 布朗 运动 〈《Brownian mo- Cu tn i Be 
tion) 。 然 而 ， 需 要 强调 的 是 ， 在 表 3.2 中 所 
总 结 的 发 现 以 及 前 述 的 陈述 是 基于 学 习 率 参数 
7 为 小 的 前 提 之 下 。 


LMS 算法 的 学 习 曲 线 
通过 解 式 (3. 57) 的 变换 差分 方程 ， 我 们 得 到 由 Haykin(2002, 2006) 所 描述 的 LMS 学 习 
曲线 ， 











Av, (n) 


yoe) BAR 
rD EPLI Z) JI 


Bayo, (n) 
$a (n) 








M M 
I = Jan ETa 2) pt + Daa ( a0? Ea gad (3. 62) 


其 中 
J(n) = EL jem |’ ] 
为 均 方 误差 ， 凡 (0) 是 变换 向 量 vCm) 的 第 上 个 元 素 。 在 学 习 率 参数 1 小 的 假设 下 ， 式 (3. 62) 简 
化 为 
Fon) Jan + PEE Yas + Daa 04600 |? — B58) = paa” (3. 63) 


本 节 中 小 学 习 率 参数 理论 的 实际 评估 在 下 面 的 计算 机 实验 部 分 讲述 。 
3. 10 ”计算 机 实验 I] ; 线性 预测 


本 实验 的 目的 是 证 明 3. 9 节 中 所 讲 的 LMS 算法 的 统计 学 习 理 论 ， 假 定 一 个 小 的 学 习 率 参 


数 7。 
对 这 一 实验 ， 我 们 考虑 一 个 一 般 模型 ， 由 下 式 和 定义 

a(n) = ax(n—1) + eln) (3. 64) 
这 表示 了 一 阶 自 回归 (CAR) 过 程 。 这 个 模型 是 一 阶 的 ，a BRM PEBR RRA eln) 
由 均值 为 0 方差 为 的 白 噪 过 程 产 生 。 模 型 的 参数 如 下 所 示 : 
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a= 0.99 

o = 0. 02 

g = 0.995 

为 了 估计 模型 参数 a， 我们 利用 学 习 率 参数 为 ?一 0. 001 的 LMS 算法 。 开 始 的 初始 条 件 为 
%(0) 一 0， 我 们 应 用 式 (3. 35) 的 标量 版 本 ， 其 中 估计 误差 为 : 
eln) = x(m) — a(n) x{n—1) 

这 里 4(n) 是 由 LMS 算法 在 第 n 时间 步 所 产生 的 a 的 估计 。 然 后 ， 做 100 次 统计 独立 的 LMS 算 
法 的 应 用 ， 画 出 算法 的 总 体 平 均 学 习 曲 线 。 图 3.5 中 5 000 次 迭代 所 画 的 实心 〈 随 机 变化 ) H 
线 是 总 体 平均 操作 的 结果 。 


学 习 率 参数 7 二 0.001 


10' 


10° un 





0 1 000 2 000 3 000 4 000 5 000 
IEARIKAn 


图 3.5 LMS 算法 应 用 于 一 阶 自 回归 过 程 的 小 学 习 率 参数 理论 的 实验 验证 


在 图 3. 5 中 已 经 包含 了 计算 总 体 平 均 学 习 曲 线 的 结果 ， 这 是 通过 利用 式 (3. 63) 的 理论 推导 
公式 来 实现 的 ， 在 假设 小 的 7 的 前 提 下 。 值 得 注意 的 是 图 3. 5 证 明了 理论 和 实际 之 加 完美 的 一 
致 性 。 更 加 地 ， 这 一 值得 注意 的 一 致 性 可 以 看 成 是 两 个 重要 的 理论 原则 的 确认 : 

1. 在 小 学 习 率 参数 假设 下 ，Kushner 方法 可 以 用 于 处 理 LMS 学 习 行 为 的 理论 分 析 。 

2. LMS 算法 的 学 习 行为 可 以 解释 为 朗 之 万 方程 的 一 个 例子 。 


3.11 HANKI: 模式 分 类 


对 于 LMS 算法 的 第 二 个 实验 ， 我 们 研究 将 这 一 算法 应 用 于 如 图 1. 8 所 示 的 双 月 结构 。 更 
具体 来 说 ， 通 过 对 双 月 结构 的 两 个 设置 来 评估 算法 的 性 能 : 

C) 4 二 1， 相 应 于 线形 可 分 

(2) 4d 二 一 4， 相 应 于 线性 不 可 分 

实际 上 ， 我 们 重复 了 第 2. 5 节 的 实验 ， 那 时 候 采 用 的 是 最 小 二 乘 ， 这 一 次 采用 LMS 算法 。 

对 于 两 个 4 值 ， 实 验 结 果 分 别 在 图 3. 6 和 图 3.7 中 给 出 。 将 这 两 个 图 和 图 2. 2 以 及 图 2. 3 
HER, EATHAR: 

(a) 对 所 有 实际 目的 来 说 ， 在 所 考虑 的 识别 性 能 范围 内 ， 最 小 二 乘 和 LMS 算法 产生 的 结 
果 是 等 同 的 。 

(b) 从 收敛 性 的 角度 来 说 ，LMS 算法 比 最 小 二 乘法 慢 很 多 。 这 个 差别 是 因为 LMS 算法 事 
实 上 是 递归 的 ， 而 最 小 二 乘法 是 按 批量 模式 和 运行， 包括 在 一 个 时 间 步 内 进行 抢 阵 求 逆 。 
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作为 一 个 有 趣 的 问题 ， 第 5 章 中 将 给 出 最 小 二 乘法 的 递归 执行 方法 。 由 于 采用 二 阶 信息 ， 
最 小 二 乘法 的 递归 执行 仍然 比 LMS 算法 的 收敛 行为 来 得 快 。 
距离 =1， 半 径 =10， 宽 =6 时 利用 LMS 进 行 分 类 





10 


-106 


-10 -5 0 5 10 15 20 


图 3.6 在 距离 为 1 时 的 LMS 分 类 ， 基 于 图 1. 8 所 示 的 双 月 结构 


距离 =-4， 半 径 =10， 宽 =6 时 利用 LMS 进 行 分 类 














图 3.7 在 距离 为 一 4 时 的 LMS 分类， 基于 图 1. 8 所 示 的 双 月 结构 
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3.12 LMS 算法 的 优点 和 局 限 


计算 简单 且 有 效 
LMS 算法 的 两 个 优点 是 计算 的 简单 性 和 有 效 性 ， 这 两 点 都 可 以 通过 表 3. 1 中 对 算法 的 总 
结 来 得 到 验证 ， 
。 对 于 算法 的 编程 仅 由 2 一 3 行 组 成 ， 这 已 经 是 简单 得 不 能 再 简单 了 。 
。 算法 的 计算 复杂 度 对 于 可 调整 参数 个 数 来 说 是 线性 的 。 
从 实际 角度 来 看 ， 这 些 都 是 非常 重要 的 优点 。 
4 PE TE 
LMS 算法 的 另 一 个 重要 的 优点 是 它 是 模型 独立 的 ， 因 而 对 于 扰动 来 说 是 鲁 棒 的 。 为 了 解 
释 这 里 鲁 棒 性 的 意义 ， 考 虑 图 3. 8 的 情形 ， 那 里 一 个 转移 算 子 T 将 一 些 换 动 从 输入 端 映射 到 输 
出 端的 “一 般 的 ”估计 误差 。 具 体 来 说 ， 在 输入 端 ， 我 们 有 如 下 项 ， 
。 由 下 式 定义 的 初始 权 值 误差 向 量 
Gw(0) = w— wd) (3. 65) 
其 中 w 是 未 知 的 参数 向 量 且 W(0) 是 在 时 间 步 n=0 时 的 “建议 ”初始 估计 。 在 LMS 算 
法 中 ， 一 般 ， 我 们 设 w(0) = 二 0， 这 在 某 种 程度 上 是 对 这 个 算法 的 最 坏 的 可 能 初始 化 
条 件 。 
。 何 到 式 (2.3) 回 归 模 型 中 的 解释 误差 e， 这 里 重 写 这 一 误差 是 为 了 讲述 的 方便 ，d my 
应 于 回归 = 的 模型 输出 : 
d=wxte (3. 66) 
自然 地 ， 算 子 了 是 用 于 构造 估计 WCn) 的 方案 例如，LMS 算法 ) 的 函数 。 现 在 可 以 引入 如 下 定义 : 


估计 器 的 能 量 增益 可 以 定义 为 算 子 了 的 输出 的 误差 能 量 和 输入 的 总 扰动 能 量 之 间 的 比 。 


为 了 消除 这 样 的 依赖 性 从 而 使 得 估计 器 是 “模型 独立 ”的 ， 我 们 考虑 具有 作用 于 估计 器 
输入 的 “所 有 可 能 扰动 序列 之 上 的 最 大 能 量 增益 ” (largest possible energy gain over all con- 
ceivable disturbance sequences) 的 情景 。 这 样 做 的 时 候 ， 我 们 定义 了 转移 算 子 7 的 H WR. 

有 了 这 样 简要 的 背景 ， 现 在 可 以 给 出 转移 算 子 7 的 五" 范 数 ， 


寻找 一 个 使 得 TT 的 H 范 数 最 小 的 因果 估计 器 ， 其 中 了 是 将 扰动 映射 到 估计 误差 的 转移 
HT. 


和 H 准则 相应 的 最 优 估计 器 是 属于 极 大 极 小 (minimax) 种 类 的 。 更 具体 来 说 ， 我 们 可 以 
将 HH 最 优 估 计 问 题 看 成 是 如 下 意义 下 的 “对 策 论 问题 ”(game- theoretic problem) : AR, fF 
为 “敌对 者 ”， 因 具有 未 知 扰动 ， 因 而 能 最 大 化 能 量 增益 。 另 一 方面 ， 估 计策 略 的 “设计 者 ” 
具有 寻找 因果 算法 的 任务 以 使 得 误差 能 量 最 小 化 。 注 意 ， 在 图 3. 8 中 我 们 介绍 五 ”准则 思想 的 
时 候 对 于 输入 的 扰动 没有 做 任何 假设 。 因 此 我 们 可 以 说 按照 H” 准 则 设计 的 估计 器 是 最 坏 情 况 
估计 器 (worst-case estimator)。 

(初始 权 值 误差 向 量 ) dw (0) D 

| (一 般 估计 误差 ) 





(扰动 ) eln) 
图 3.8 最 优 H” 估 计 问 题 的 构成 。 转 移 算 子 输 出 端的 一 般 估计 误差 可 以 是 权 值 误差 向 量 、 解 释 误 差 等 
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以 精确 的 数学 术语 来 说 ，LMS 算法 按照 AE COR AR EMD BEM. E HR 
义 下 最 优 性 的 基本 原理 要 处 理 最 坏 情况 : 


如 果 你 不 知道 你 面 对 的 是 什么 ， 计 划 最 坏 的 情况 并 优化 它 。 


长 期 以 来 LMS 算法 被 当 作 梯度 下 降 法 的 瞬时 逼近 。 但 是 ，LMS 算法 的 H~ 最 优 性 为 这 个 
广泛 应 用 的 算法 提供 了 严格 的 基础 。 而 且 ，LMS 算法 的 H™” 理 论说 明 当 学 习 率 参数 1 被 赋予 一 
个 小 的 值 时 算法 获得 最 大 的 鲁 棱 特 性 。 

LMS 算法 的 模型 独立 行为 也 解释 了 算法 在 稳定 和 不 稳定 环境 下 令 人 满意 的 工作 能 力 。 这 
里 “不 稳定 ”环境 是 指 统计 特性 随时 间 变 化 的 环境 。 在 这 样 一 个 环境 下 ， 最 优 的 维 纳 解 随时 间 
变化 ，LMS 算法 有 了 一 个 附加 任务 一 一 跟踪 维 纳 滤 波 器 最 小 均 方 误差 的 变化 。 
限制 LMS 性 能 的 因素 

LMS 算法 的 主要 局 限 性 是 收敛 速度 较 慢 ， 并 且 对 输入 特征 结构 的 变化 是 敏感 的 (Haykin， 
1996). LMS 算法 一 般 需 要 输入 空间 维 数 10 倍 的 迭代 次 数 才能 达到 稳定 状态 。 当 输入 空间 维 
数 较 高 时 缓慢 的 收敛 速度 会 变 得 特别 严重 。 

至 于 对 环境 条 件 变 化 的 敏感 性 ，LMS 算法 的 收敛 行为 对 输入 向 量 xz 的 相关 矩阵 R,, 的 条 件 
数 (condition number) 或 特征 值 散布 (eigenvalue spread) 的 变化 特别 敏感 。R,, 的 条 件数 记 为 
X(R) ,定义 如 下 : 

X(R) = a: (3. 67) 


这 里 Amex Fl Amin PB KS R, 的 最 大 和 最 小 特征 值 。 当 输入 癌 量 x(m) 所 属 的 训练 样本 是 
坏 条 件 (ill conditioned) 时 ， 也 就 是 当 LMS 算法 的 条 件数 很 大 时 ，LMS 算法 对 条 件数 xR) Æ 
化 的 敏感 性 变 得 特别 严重 。 
3.13 ”学习 率 退火 方案 
LMS 算法 遇 到 的 慢 速 率 收敛 可 归 因 于 学 习 率 参数 在 计算 过 程 中 保持 在 某 个 值 六 不 变 的 事 
K, RIA 
n(n) = mp MAn (3. 68) 
这 只 是 学 习 率 参数 能 够 假设 的 最 简单 的 可 能 形式 。 相 反 ， 在 Robbins 和 Monro 有 关 随 机 
允 近 的 经 典 论文 中 (1951)， 学 习 率 参数 是 随时 间 而 改变 的 。 在 随机 逼近 文献 中 最 常用 到 的 学 
习 率 参数 随时 间 变 化 的 形式 是 
Cn) 一 一 (3. 69) 


这 里 c 是 常数 。 这 样 一 个 选择 确实 足够 保证 随机 逼近 算法 的 收 钙 性 (Kushner and Clark, 
1978) 。 但 是 ， 当 常数 c 较 大 时 ， 对 于 较 小 的 nn 有 可 能 出 现 参 数 放大 的 危险 。 

作为 式 (3. 68) 和 式 (3. 69) 式 的 替代 ， 可 以 使 用 Darken and Moody(1992) 定 义 的 搜索 然后 
Nk ak FH HE (search-then-converge schedule) 


=e | 3. 70 
qen) 1+ (n/r) £ ) 


这 里 p 和 是 由 用 户 选择 的 常数 。 在 自 适 应 的 早期 阶段 ， 即 迭代 次 数 对 相对 搜索 时 间 常 数 r 较 
小 时 ， 学 习 率 参数 p(n) 近似 等 于 m%， 算 法 运行 实际 上 也 是 与 “标准 ”LMS 算法 一 样 的 ， 如 图 
3. 9 所 示 。 因 此 ， 通 过 在 允许 范围 内 选择 一 个 较 大 的 mw%， 我 们 希望 对 滤波 器 的 可 调 权 值 能 找到 
一 组 较 好 的 值 并 在 其 中 上 下 浮动 。 然 后 ， 当 迭代 次 数 n 比 搜索 时 间 常 数 t 大 时 ， 学 习 率 参数 
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n(n) 近 似 为 c/n， 这 里 c 二 tmp， 如 图 3.9 所 示 。 算 法 现在 以 一 个 传统 的 随机 逼近 算法 运行 ， 且 
权 值 收 伊 到 它们 的 最 优 值 。 因 此 ， 搜 索然 后 收效 方案 具有 把 标准 LMS 算法 的 期 望 特征 和 传统 
随机 逼近 理论 结合 起 来 的 潜力 。 


y(n) 





3.9 学 习 率 退火 方案 : 横 轴 表示 标准 LMS 算法 
3.14 ”小结 和 讨论 


本 音 中 ,我们 讨论 了 著名 的 最 小 均 方 LMS) BR. EH Widrow 和 Hoff 在 1960 年 提 
出 的 。 从 这 个 方法 的 提出 开始 ， 由 于 以 下 多 个 实际 原因 这 一 算法 经 受 住 了 时 间 的 考验 : 

1. 算法 的 公式 简单 而 且 执行 简单 ， 无 论 是 以 硬件 或 者 软件 形式 。 

2. 尽管 这 一 算法 是 简单 的 ， 但 其 性 能 很 高 。 

3. 从 计算 的 角度 来 说 ， 算 法 是 非常 高 效 的 ， 其 复杂 度 对 于 可 调整 参数 的 个 数 而 言 是 线 
性 的 。 

4. 最 后 也 是 很 重要 的 一 点 ， 算 法 是 模型 独立 的 因而 对 扰动 而 言 是 鲁 榜 的 。 

在 学 习 率 参数 7 是 小 的 正 数 的 假设 下 ， 有 了 Kushner 直接 平均 法 ，LMS 算法 的 收敛 行为 
(通常 难以 分 析 ) 变 得 数学 易 处 理 的 。 这 一 方法 的 理论 优点 在 于 当 ;小 的 时 候 ， 描 述 LMS 算法 
收 敏 行为 的 非 线性 “随机 ” 差分 方程 被 头 始 方程 的 非 线 性 “确定 性 ”版 本 所 人 代替。 而且， 通过 
灵活 运用 特征 分 解 ， 所 得 到 的 非 线性 确定 性 方程 的 解 被 一 个 解 耦 一 阶 差分 方程 系统 所 代替 。 这 
里 要 注意 的 要 点 是 这 样 推导 而 来 的 一 阶 差 分 方程 从 数学 上 等 价 于 非 平 衡 热 力学 的 半 之 万 方程 的 
离散 时 间 版 本 。 这 一 等 价 性 解释 了 LMS 算法 在 大 量 迭 代 之 后 围绕 着 维 纳 解 进行 的 布朗 运动 。 
在 3. 10 节 中 的 计算 机 实验 以 及 在 Haykin(2006) 中 的 其 他 计算 机 实验 证 实 了 式 (3. 63) 的 有 效 
性 ， 这 一 公式 描述 了 LMS 算法 的 总 体 平均 学 习 曲 线 。 
值得 注意 的 是 当 学 习 率 参数 了 小 的 时 候 LMS 算法 表现 了 最 佳 鲁 棒 性 能 。 然 而 ， 为 了 这 

一 实际 中 的 重要 性 能 而 付出 的 代价 是 相应 的 慢 速 收敛 。 在 某 种 程度 上 ，LMS 算法 的 这 一 局 限 
可 以 通过 利用 学 习 率 退火 来 组 和， 如 3. 13 节 所 讲 的 那样 。 

作为 最 后 的 评论 ， 本 章 我 们 集中 讨论 了 普通 的 LMS 算法 。 无 需 缆 言 ， 这 一 算法 具有 多 个 
变形 ， 每 个 变形 都 提供 了 各 自 的 实际 优点 ; 对 于 这 些 变 形 的 细节 ， 有 兴趣 的 读者 可 以 参考 
(Haykin, 2002), 
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注释 和 参考 文献 


1. 对 一 个 向 量 的 微分 
设 /(w) 表 示 参 数 向 量 w 的 一 个 实 值 范 数 。 Fw) 对 w 的 导数 定义 为 如 下 向 量 : 
af _ BE OF oa. BE | 


aw aw, Our’ AW» 
这 里 mE w 的 维 数 。 我 们 对 下 面 的 两 种 情形 很 感 兴趣 : 
情形 1 函数 Fw) 定义 为 内 积 : 


fF(W) = x’ w = DY rw, 
i=] 
因此 ， 


或 等 价 地 ， 以 矩阵 形式 表示 : 
OF cag (3.71) 


情形 2 BR f(w) 定 义 为 二 次 型 . 
fw =w' Rw = > urs Wj 


AE n J m Xm EE RKS if POH. 因此， 
af = 2 > TEL 一 2 
或 等 价 地 ， 以 矩阵 形式 表示 : 


of _ 2 Rw (3. 72) 
Ow 


式 (3.71) 和 式 (3.72) 为 和 铅 量 的 实 值 函 数 的 微分 提供 了 两 个 有 用 的 规则 。 

. 矩形 矩阵 的 伪 北 在 Golub and Van Loan(1996) 中 进行 了 讨论 ; 也 可 参照 Haykin(2002) 的 第 8 章 。 

、 朗 之 万 方程 在 Reif(1965) 中 进行 了 讨论 。 关 于 朗 之 万 方程 迷人 的 历史 报告 ， 参 照 Cohen(2005) 关 于 噪声 的 
辅导 论文 。 

. 式 (3. 56) 的 正 交 变换 由 方 阵 的 特征 分 解 而 来 。 这 一 主题 将 在 第 8 章 中 详细 讲解 。 

. 对 于 早期 的 (可 能 是 第 一 个 ) 关 于 H 控制 的 诱发 性 讨论 ， 可 以 参考 Zames(1981). 

在 H 意义 下 关于 LMS 算法 最 优 性 的 第 一 个 探索 是 Hassibi 等 (1993)。Hassibi 等 (1999) 从 估计 或 者 自 适 
应 滤波 的 角度 论述 H” 理论 。Hassibi 也 在 HP 意义 下 给 出 了 关于 LMS 算法 的 鲁 棒 性 的 精简 讨论 ， 参 考 
Haykin and Widrow(2005) 的 第 8 章 。 

从 控制 的 角度 来 看 H 理论 的 书 ， 可 以 参照 Zhou and Doyle(1998) 以 及 Green and Limebeer(1995) 。 

. LMS 算法 的 收 伍 行为 关于 记 为 X(R) 的 相关 矩阵 R 的 条 件数 变化 的 敏感 性 ， 在 Haykin(2002) K9 5.7 市 通 
过 实验 作 了 描述 。 在 Haykin(2002) 的 第 9 章 中 ， 处 理 最 小 二 乘法 的 递归 执行 ， 也 证 明了 算法 的 收 钱 行为 本 


质 上 独立 于 条 件数 XR). 
习题 


3.1 (a) 令 m(n) 表 示 LMS 算法 在 第 次 迭代 的 平均 权 值 问 量 ， 即 


m(n) = ELW(n) | 
利用 3.9 节 的 小 学 习 率 参数 理论 ， 证 明 
m(n) = (I— R,.)"[m(0) — m(co)] + m(co) 
其 中 7 了 是 学 习 率 参数 ，R- 是 输入 向 量 x(n) 的 相关 和 矩阵 ，m(0) 和 m() 为 m(n) 相 应 的 初始 和 最 
终 值 。 
(b) 证 明 对 于 LMS 算法 在 平均 意义 下 收 仇 ， 学 习 率 参数 y 必须 满足 条 件 ， 
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3.2 
3.3 
3.4 


3.5 


3. 6 


3.7 


3.8 


3.9 
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O< < 
这 里 Am EHRE R 的 最 大 特征 值 。 
继续 习题 3. 1]， 讨 论 为 什么 LMS 算法 在 平均 意义 下 收敛 不 是 实际 中 收 伍 的 充分 准则 。 
考虑 将 均值 为 0 方差 为 so 的 高 斯 白 品 序列 作为 LMS 算法 的 输入 。 给 出 均 方 意义 下 算法 的 收 化 条 件 。 
在 LMS 算法 的 一 个 称 为 漏 LMS 算法 (leaky LMS algorithm) 的 变形 中 .用 于 极 小 化 的 代价 函数 定义 为 
Eln) 一 = | e(n) |? + A | won) ||? 


其 中 w(m 是 参数 回 量 ，e(2) 是 估计 误差 ,4 是 常数 。 如 普通 LMS 算法 ， 我 们 有 

r e(n) = d(n) — w' (n)x(n) 
其 中 d(n) Fe AAI Ff A Te BE x(Cz) 的 期 望 响应 。 
Ca) 证 明 每 个 时 间 步 对 漏 LMS 算法 的 参数 向 量 的 更 新 由 下 式 定 义 : 

Won + 1) = C1 — A) en) + qxln)eln) 

普通 LMS 算法 是 一 个 特例 。 

(b) 利用 3.3 节 的 小 学 习 率 参数 理论 ， 证 明 
lim ELC] 一 《Re 十 AD ra 

HF Re xO WAKE, ERMER, ra 是 x(n) 和 a(n) 的 互相 关 向 量 。 
继续 习题 3.4， 证 明 沁 LMS 算法 可 以 通过 在 输入 向 量 x(n) POA ARR “RE”. 
Ca) 噪声 的 方差 是 多 少 才能 使 得 习题 3.4 中 的 〈b) 条 件 得 到 保持 ? 
Cb) HART eR EK SEs EAA Ald LMS 算法 相同 的 形式 ? 证明 你 的 答案 。 
我 们 有 时 在 文献 中 发 现 学 习 曲 线 的 均 方 误差 (MSE) 公式 被 替代 为 均 方 偏差 (mean-square deviation, 
MSD) 学 习 曲 线 。 定 义 权 值 误差 向 量 


eln) = w— Wn) 
这 里 w 是 提供 期 望 啊 应 的 回归 模型 的 参数 向 量 。 这 第 二 个 学 习 曲 线 是 通过 对 迭代 次 数 n 计算 一 块 MSD 
而 获得 的 : 
D(n) = EL || eCn) | 
利用 3.9 节 的 小 学 习 率 参数 理论 ,证 明 
D oo) = limD(n) = MI min 


其 中 7 是 学 习 率 参数 ，M 是 参数 向 量 % 的 大 小 ，Jm 是 LMS 算法 的 最 小 均 方 误差 。 
在 本 习题 中 我 们 考虑 证 明 直 接 平 均 法 ,假设 遍历 性 。 
从 式 (3. 41) 开 始 ， 它 通过 转移 矩阵 A(n) 和 驱动 力 f(n) 定 义 权 值 误差 向 量 eC(n)。 而 Aln) 和 fCn) 分 别 通 过 
输入 向 量 x(n) ZESR (3. 42) 和 式 (3.43) 中 定义 ; 然后 做 如 下 过 程 : 
© &n=0, 评估 e(l). 
© Sn=1, Wh el). 
*。 对 于 少量 的 更 多 次 迭代 继续 这 一 方式 。 
有 了 这 些 关 于 s(Cz) 的 迭代 值 之 后 ， 推 导 转 移 矩 阵 A(n) 的 公式 。 
下 面 假设 学 习 率 参数 7 足够 小 以 验证 仅 保 持 对 于 7 BAH. AL, 假设 遍历 性 ， 证 明 

A(n) = I— 7 >)x(i)x™G) 

ACn) = 1— LR.,., 

当 学 习 率 参数 了 小 的 时 候 ，LMS 算法 像 “ 小 截至 频 举 低 通 滤波 器 ”(low-pass filter with a small cutoff 
frequency) 一 样 工 作 。 这 样 的 滤波 器 产生 的 输出 和 输入 信和 号 的 平均 成 正比 。 


利用 式 (3. 41) ， 通 过 考虑 利用 单一 参数 算法 的 简单 例子 讲述 LMS 算法 的 性 质 。 
对 于 小 学 习 率 参数 从 式 (3. 55) 开 始 ， 证 明 在 稳定 状态 条 件 下 ， 保 持 Lyapunov 方程 
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RP, (Cna) + Pi (wR = 7 > JR” 
i=0 


其 中 我 们 有 


Jan = Ele, (nde, (n — i) ] 


且 


R® = El x(n) x" (n—1)] 


对 于 i 一 0,1,2,… HPF Po 通过 ELe.(z)ee Cn) [HE FEM» e, Cn) Fee h EY OE SB PE AR) BA TTR o 


计算 机 实验 
3.10 对 于 下 面 的 学 习 率 参数 值 重 复 3. 10 节 关 于 线性 预测 的 计算 桃 实验 

C1) ?7 一 0. 002; 

(2) y=0.01; 

(3) 7 一 0. 02, 

对 于 每 个 7 值 ， 根 据 LMS 算法 的 小 学 习 率 参数 理论 的 适用 性 对 你 的 发 现 做 出 评论 。 
3.11 将 图 1.8 中 的 双 月 间 的 分 隔 臣 离 设 为 & 一 0， 重 复 3. 11 节 中 模式 分 类 的 计算 机 实验 。 

和 习题 1. 6 关于 感知 器 的 实验 以 及 习题 2. 7 关于 最 小 二 乘法 的 试验 比较 你 的 实验 结果 。 
3.12 利用 下 面 的 分 隔 距 离 ， 画 出 将 LMS 算法 应 用 于 图 1. 8 的 双 月 结构 的 模式 分 类 学 习 曲 线 : 


d=1 
d=0 

d 一 一 4 

将 这 一 实验 结果 与 第 1 章 利用 Rosenblatt 感知 器 的 实验 结果 进行 比较 。 
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Neural Networks and Learning Machines, 3E 


SRR AAs 


本 章 组 织 

在 本 章 中 ， 我 们 将 从 多 个 方面 来 学 习 多 层 感 知 器 ， 多 层 感 知 嘱 代表 一 类 具有 一 尾 或 多 居中 
藏 层 的 神经 网 络 。 在 4.1 节 介绍 了 引言 素材 之 后 ， 我 们 按 如 下 步骤 学 习 : 

4. 2 一 4.7 节 讨 论 关 于 反 向 传播 的 知识 。4.2 节 中 介绍 一 些 预 备 知识 来 为 反 轴 传播 鼻 法 的 推导 
做 准备 。 这 一 节 也 包含 了 关于 信用 分 配 问题 的 讨论 。4.3 节 介 绍 两 种 学 习 方法 : 批量 和 在 线 学 习 。 
4.4 节 介绍 反 向 传播 算法 的 推导 细节 ， 利 用 了 微 积 分 学 的 链 式 规则 。 推 导 过 程 中 采用 了 传统 方法 。 
4.5 节 通 过 解 KOR 问题 来 说 明 反 向 传播 算法 的 应 用 。XOR 是 一 个 无 法 用 Rosenblatt 感知 器 来 解 
决 的 有 趣 的 问题 。4.6 节 给 出 了 一 些 使 得 反 向 传播 算法 更 好 实现 的 启发 式 方法 和 实际 的 指导 方针 。 
4.7 节 给 出 了 一 个 关于 多 层 感 知 器 的 模式 分 类 实验 ， 这 一 感知 器 通过 反 向 传播 算法 来 训练 。 

4.8 节 和 4.9 节 处 理 误差 曲面 。4. 8 节 讨 论 反 向 传播 学 习 在 计算 网 络 遥 近 函 数 的 人 篇 导数 中 
的 基础 规则 。4.9 节 讨 论 关 于 误差 曲面 的 Hessian 算 阵 的 计算 问题 。4. 10 节 讨 论 两 个 问题 : 如 
何 实 现 最 优 退 火 以 及 如 何 使 得 学 习 率 参数 目 适 应 。 

4.11~4. 14 节 和 集中 讨论 用 反 向 传播 算法 训练 的 多 层 感知 硕 性 能 方面 的 多 个 问题 。4.11 节 
讨论 活化 问题 一 一 这 是 关于 学 习 的 一 个 非常 本 质 的 问题 。4. 12 节 中 讨论 通过 多 层 感 知 器 来 实 
现 连 续 函 数 的 逼近 问题 。 在 4.13 节 中 将 交叉 验证 作为 统计 设计 工具 来 讨论 。4. 14 市 讨论 复杂 
度 正 则 化 问题 以 及 网 络 修剪 技术 。 

4.15 节 总 结 了 反 向 传播 学 习 的 优点 和 局 限 性 。 

学 习 完 反 向 传播 学 习 之 后 ，4. 16 节 从 不 同 角度 来 将 监督 学 习 看 作为 最 优化 问题 进行 讨论 。 

在 4.17 节 讲 述 一 类 重要 的 神经 网 络 : BRS ARM (convolutional multilayer percep- 
tron) 。 这 一 网 络 已 经 在 解困 难 模 式 识别 问题 时 得 到 了 成 功 的 应 用 。 

4. 18 节 处 理 非 线 性 滤波 ， 这 里 时 间 扮 演 着 关键 角色 。 这 一 讨论 从 短 时 记忆 结构 开始 ， 为 
通用 短视 映射 定理 (universal myopic mapping theorem) 建立 了 基础 。 

4. 19 节 讨 论 小 规模 和 大 规模 学 习 问 题 。 

最 后 是 4. 20 节 的 小 结 和 讨论 。 


4.1 引言 


在 第 1 章 中 ， 我 们 学 习 了 Rosenblatt 感知 器 ， 它 本 质 上 是 一 个 单 层 神经 网 络 。 该 章 证 明了 
这 一 网 络 局 限于 线性 可 分 模式 的 分 类 问题 。 然 后 ， 在 第 3 章 中 ， 我 们 学 习 了 自 适 应 滤波 ， 采 用 
了 Widrow 和 Hoff 的 LMS 算法 。 这 一 算法 也 是 基于 权 值 可 调 的 单个 线性 神经 元 ， 这 也 限制 了 
这 一 算法 的 计算 能 力 。 为 了 克服 感知 器 和 LMS 算法 的 实际 局 限 ， 我 们 考虑 所 熟知 的 多 层 感 知 
器 这 一 神经 网 络 结构 。 

下 面 的 三 点 揭示 了 多 层 感知 器 的 基本 特征 : 

。 网 络 中 每 个 神经 元 模型 包含 一 个 可 微 的 非 线性 激活 函数 。 

。 网 络 中 包括 一 个 或 多 个 隐藏 在 输入 和 输出 神经 节 氮 之 间 的 必 。 

。 网 络 展示 出 高 度 的 连接 性 ， 其 强度 是 由 网 络 的 突 触 权 值 决定 的 。 

然而 ， 同 样 这 些 特 性 也 导致 了 现 阶段 关于 网 络 行为 知识 的 缺乏 。 首 先 ， 由 于 非 线 性 分 布 式 
的 存在 和 网 络 的 高 度 连接 性 使 得 多 层 感知 器 的 理论 分 析 难 于 进行 。 第 二 ， 隐 藏 层 的 使 用 使 得 学 
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习 过 程 变 得 更 难 。 这 暗示 着 学 习 过 程 必须 决定 输入 模式 的 哪些 特征 应 该 由 隐藏 层 神 经 元 表示 出 
来 。 学 习 过 程 因此 变 得 更 困难 了 ， 因 为 不 得 不 在 大 得 多 的 可 能 函数 空间 中 搜索 ， 同 时 必须 在 输 
人 模式 的 不 同 表示 中 进行 选择 。 

训练 多 层 感 知 船 的 一 个 流行 方法 是 反 向 传播 算法 ， 这 包含 LMS 算法 作为 一 个 特例 。 训 练 
ee 

. 前 向 阶段 ， 网 络 的 突 触 权 值 是 固定 的 ， 输 入 信号 在 网 络 中 一 层 一 层 传 播 ， 

“a 因此， 在 这 一 阶段 ， 输 入 信号 的 影响 限制 在 网 络 中 激活 隐藏 神经 元 和 输出 神经 

2. 反 向 阶段 ， 通 过 比较 网 络 的 输出 和 期 望 输出 产生 一 个 误差 信号 。 a 
过 网 络 一 层 一 层 传播 ,但 是 这 一 次 传播 是 在 反 向 方向 进行 的 。 在 这 第 二 阶段 ， 对 于 网 络 的 突 触 权 
值 进行 不 断 的 修正 。 对 于 输出 层 权 值 的 修正 计算 是 直接 的 ， 但 是 对 于 隐藏 层 来 说 则 更 有 挑战 性 。 

“ 反 回 传播 ”这 个 词 的 使 用 出 现在 1985 年 后 ， 而 它 的 广泛 使 用 是 在 《Parallel Distributed 
Processing) (CRumelhart and McClelland, 1986) 这 本 书 出 版 以 后 。 

20 世纪 80 年 代 中 期 反 回 传播 算法 的 提出 是 神经 网 络 发 展 史 上 的 一 个 里 程 碑 ， 因 为 它 为 训 
练 多 层 感 知 髓 提供 了 一 个 高 效 的 计算 方法 ， 它 使 多 层 感知 器 的 学 习 不 再 像 Minsky 和 Papert 在 
其 1969 年 所 闭 的 书 中 所 上 暗示 的 那样 悲观 。 


4.2 一 些 预备 知识 


图 4. 1 表示 一 个 具有 两 个 隧 藏 层 和 一 个 输出 层 的 多 层 感知 器 的 结构 图 。 为 了 构筑 多 层 感 知 
器 一 般 形式 的 描述 平台 ， 这 里 说 的 网 络 是 全 连接 的 (fully connected)。 这 就 是 说 在 任意 层 上 的 

SHH 2 元 与 它 之 前 的 层 上 的 所 有 节点 /神经 元 都 连接 起 来 。 信号 一 层 接 一 层 地 逐步 流 过 ， 方 
向 是 向 前 的 ， 从 左 到 右 。 

图 4. 2 描绘 了 多 层 感知 器 的 一 部 分 。 在 这 个 网 络 中 ， 两 种 信和 号 都 能 被 识别 ， 





一 > 函数 信号 





输入 层 on 第 二 oA 输出 层 < --. 误差 信号 
图 4.1 具有 两 个 隐藏 层 的 多 层 感 知 髓 结构 图 4.2 多 层 感知 器 中 两 个 基本 信和 号 流 的 方向 图 示 : 


函数 信号 的 前 向 传播 和 误差 信号 的 反 向 传播 


1. 函数 人 信号。 函数 信号 是 从 网 络 输入 端 而 来 的 一 个 输入 信号 〈 刺 激 )， 通 过 网 络 〈 一 个 神 
经 元 接 一 个 神经 元 ) 向 前 传播 ， 到 达 网 络 输出 端 即 成 为 一 个 输出 信和 号。 我们 把 这 样 一 个 信和 号 称 
为 “函数 信号 ”有 两 个 原因 。 首 先 ， 在 网 络 输 出 端 时 假设 它 表 现 为 有 用 的 了 油 数 。 第 二 ， 在 函数 
信号 通过 网 络 上 每 一 个 神经 元 处 ， 该 处 信号 都 被 当成 输入 以 及 与 该 神经 元 有 关 的 权 值 的 一 
数 来 计算 的 。 项 数 信 号 也 被 认为 是 输 和 人 信和 号 
2. 误差 信号 。 一 个 误差 信号 产生 于 网 络 的 一 个 输出 神经 元 ， 并 通过 网 络 (一 层 接 一 层 ) 
反 向 传播 。 我 们 称 之 为 “误差 信号 ”是 因为 网 络 的 每 一 个 神经 元 对 它 的 计算 虱 以 这 种 或 那 种 形 
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TR Be IR Ze HK RA PB o 

输出 神经 元 构成 网 络 的 输出 层 。 余 下 的 神经 元 构成 网 络 的 隐藏 层 。 因 此 隐藏 层 单元 并 不 是 
网 络 输出 或 输入 的 一 部 分 一 一 因此 它们 被 称 为 “隐藏 ”的 。 第 一 隐藏 层 的 信号 是 从 由 传 感 单元 
( 源 节 点 ) 构成 的 输入 层 馈 给 的 ;而 第 一 隐藏 层 的 输出 结果 又 应 用 于 下 一 个 隐藏 展 ; 网 络 的 其 
余部 分 依 此 类 推 。 

多 层 感 知 器 每 一 个 隐藏 层 或 输出 层 神 经 元 的 作用 是 进行 两 种 计算 : 

1. 计算 一 个 神经 元 的 输出 处 出 现 的 函数 信号 ， 它 表现 为 关于 输入 信号 以 及 与 该 神经 元 相 
关联 的 罕 触 权 值 的 一 个 连续 非 线性 函数 。 

2. 计算 梯度 向 量 〈 即 误差 曲面 对 连接 于 一 个 神经 元 输入 的 权 值 的 梯度 ) 的 一 个 估计 ， 它 
需要 反 向 通过 网 络 。 
隐藏 神经 元 的 功能 

隐藏 神 经 元 扮演 着 特征 检测 算 子 (feature detector) 的 角色 ; 它们 在 多 是 感知 器 的 运转 中 起 着 决 
定性 作用 。 随 着 学 习 过 程 通过 多 层 感 知 器 不 断 进 行 ， 隐 藏 神经 元 开始 逐步 “发 现 ” 刻 画 训 练 数据 的 
突出 特征 。 它 们 是 通过 将 输入 数据 非 线性 变换 到 新 的 称 为 特征 空间 的 空间 而 实现 的 。 例 如 ， 在 模式 
分 类 问题 中 ，、 感 兴趣 的 类 在 这 个 新 的 空间 中 可 能 比 原始 输入 数据 空间 中 更 容易 分 隔 开 。 甚 至 ， 焉 是 
通过 监督 学 习 形 成 的 这 一 特征 空间 将 多 层 感知 器 和 Rosenblatt 感知 器 区 别 开 来 。 
信用 分 配 问 题 

当 学 习 如 图 4. 1 所 示 的 分 布 式 系统 的 学 习 算 法 时 ， 注 意 信 用 分 配 (credit assignment) 的 
概念 是 有 益 的 。 基 本 上 ， 信 用 分 配 问题 是 分 配 总 体 结果 的 信用 或 者 责任 《blame) 给 每 一 个 由 
分 布 式 学 习 系统 的 隐藏 计算 单元 所 产生 的 内 部 决策 (internal decision) ， 首 先 要 注意 的 是 那些 
决策 将 决定 总 体 结 来 。 

在 利用 误差 相关 学 习 (error-correlation learning) 的 多 层 感 知 器 中 ， 会 发 生 信用 分 配 问 
题 ， 这 是 因为 网 络 中 每 一 个 隐藏 神经 元 和 每 一 个 输出 神经 元 的 操作 ， 对 于 网 络 感 兴趣 的 学 习 任 
务 的 总 体 正确 行为 而 言 都 是 重要 的 。 也 就 是 说 ， 为 了 解决 给 定 的 任务 ， 网 络 必须 通过 特定 的 误 
差 修正 学 习 算 法 给 它 的 所 有 神经 元 分 配 某 种 形式 的 行为 。 在 这 一 背景 下 ， 考 虑 图 4. 1 所 示 的 多 
层 感知 器 。 因 为 每 一 个 输出 神经 元 对 于 外 部 世界 来 说 是 可 见 的 ， 我 们 可 以 提供 一 个 期 望 响应 来 
指导 这 些 神 经 元 的 行为 。 因 此 ， 一 旦 考虑 了 输出 神经 元 ， 就 可 以 直接 通过 误差 修正 算法 来 修正 
每 个 输出 神经 元 的 突 触 权 值 。 但 是 ， 当 误差 修正 学 习 算 法 被 用 来 修正 隐藏 神经 元 的 突 触 权 值 
时 ， 如 何 给 隐藏 神经 元 的 行为 分 配 信用 或 者 责任 呢 ? 对 这 一 基本 问题 的 答案 需要 比 输出 神经 元 
的 情形 给 出 更 细节 的 关注 。 

在 本 音 后 续 的 部 分 ， 我 们 给 出 反 向 传播 算法 ， 它 是 多 层 感 知 器 训练 的 基础 算法 。 反 回 传 播 
算法 以 一 种 精致 的 方式 解决 了 信用 分 配 问 题 。 但 是 在 介绍 反 向 传播 算法 之 前 ， 我 们 在 下 一 节 中 
讲述 监督 学 习 的 两 种 基本 方法 。 


4.3 ”批量 学 习 和 在 线 学 习 


考虑 具有 一 个 出 源 节点 组 成 的 输入 层 、 一 个 或 多 个 隐藏 层 、 由 一 个 或 者 多 个 神经 元 组 成 的 


输出 层 的 多 层 感 知 器 ， 如 图 4.1 所 示 。 令 
J = {x(n),d(n) tel (4.1) 


用 于 训练 网 络 的 训练 样本 采用 有 监督 方式 。 令 y;《n) 记 为 在 输出 层 第 7 个 神经 元 输出 产生 的 天 
数 信 号 ， 这 一 函数 信号 是 由 作用 在 输入 层 的 刺激 x(n) 所 产生 的 。 相 应 地 ， 神经 元 7 的 输出 所 产 
生 的 误差 信号 定义 为 : 
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e,(n) = dj;(n) — y;(n) (4, 2) 

其 中 dj (n) 是 期 望 响应 向 量 d(n) 的 第 ; 个 元 素 。 根 据 在 第 3 章 学 习 过 的 LMS 算法 的 术语 ， 神 
经 元 ; 的 瞬时 误差 能 量 (instantaneous error energy) 定义 为 

$i (n) = se (n) (A. 3) 


将 所 有 输出 层 神 经 元 的 误差 能 量 相 加 ， 得 到 整个 网 络 的 全 部 瞬时 误差 能 量 (total instantaneous 


error energy): 
en) = WS = Deyn) (4. 4) 
EC 2 EC 


其 中 集合 C 包括 输出 层 的 所 有 神经 元 。 设 训练 样本 中 包含 N 个 样 例 ， 训 练 样本 上 的 平均 误差 
能 量 (error energy averaged over the training sample) 或 者 说 经 验 风 险 (empirical risk) 年 
SA: 
Ea CN) = > gin) = meee Dein) (4.5) 

自然 ， 有 瞬时 误差 能 量 以 及 平均 误差 能 量 都 是 多 层 感 知 器 的 所 有 可 调 突 触 权 值 〈 即 自由 参数 ) 的 
函数 。 这 一 函数 依赖 性 没有 包含 在 轩 (n) 和 包 ,(CN) 的 公式 中 ， 这 仅仅 是 为 了 简化 表达 。 

根据 多 层 感知 器 监督 学 习 的 实际 执行 方式 ， 可 以 给 出 两 种 不 同 的 方法 一 一 即 批量 学 习 和 在 
线 学 习 ， 在 下 面 梯度 下 降 的 讨论 中 将 对 此 进行 探讨 。 
批量 学 导 

在 监督 学 习 的 批量 方法 中 ， 多 层 感知 器 的 突 触 权 值 的 调整 在 训练 样本 集合 了 的 所 有 N TF 
例 都 出 现 后 进行 ， 这 构成 了 训练 的 一 个 回合 (epoch) 。 换 句 话 说， 批量 学 习 的 代价 函数 是 由 平 
均 误 差 能 量 色 ,定义 的 。 多 层 感知 器 的 突 触 权 值 的 调整 是 以 回合 -回合 为 基础 的 《epoch-by-epoch 
basis) 。 相 应 地 ， 学 习 曲 线 的 一 种 实现 方式 是 通过 描画 %%, 对 回合 数 的 图 形 而 得 到 ， 对 于 训练 的 
每 一 个 回合 ， 训 练 样本 集 9 的 样 例 是 随机 选取 的 (randomly shuffled)。 学 习 曲 线 通 过 对 足够 大 
量 的 这 样 实现 的 总 体 平均 (ensemble averaging) 来 计算 ， 这 里 每 次 实现 是 在 随机 选取 不 同 初 
始 条 件 下 完成 的 。 

用 梯度 下 降 法 来 实现 训练 时 ， 批 量 学 习 的 优点 在 于 : 

。 对 梯度 向 量 ( 即 代价 函数 名 ,对 权 值 向 量 w 的 导数 ) 的 精确 估计 ， 因 此 ， 在 简单 条 件 

下 ， 保 证 了 这 一 方法 最 速 下 降 到 局 部 极 小 点 的 收敛 性 。 

。 学 习 过 程 的 并 行 性 。 

然而 ， 从 实际 观点 看 ， 批 量 学 习 有 着 存储 需求 (storage requirement), 

从 统计 的 角度 看 ， 批 量 学 习 可 以 看 成 是 某 种 形式 的 统计 推断 (statistical inference)。 因 此 
它 很 适合 于 解 非 线性 回归 问题 。 
在 线 学 习 

在 监督 学 习 的 在 线 方法 下 ， 对 于 多 层 感知 器 突 触 权 值 的 调整 是 以 样 例 - 样 例 为 基础 的 〈ex- 
ample-by-example basis) 。 用 来 最 小 化 的 代价 函数 是 全 体 瞬 时 误差 能 量 (n)，。 

考虑 由 N 个 训练 样本 构成 的 一 个 回合 ， 样 本 的 顺序 是 {x(1) dC}, {x(2),d(2)},*…， 
(X(N) ,d(CN)}。 回合 中 第 一 个 样 例 对 {x(1),d(1)} 输入 给 网 络 时 ， 梯 度 下 降 法 被 用 来 调整 权 
值 。 然 后 回合 中 第 二 个 样本 {x(2).d(2)) 输入 给 网 络 ， 这 导致 对 网 络 权 值 的 进一步 调整 。 这 
一 过 程 不 断 持续 直到 最 后 一 个 样 例 xN) dN). BRIE, 这 样 的 过 程 违 反 了 在 线 学 习 的 
并 行 性 。 

对 于 给 定 的 初始 条 件 集合 ， 学 习 曲 线 的 一 种 实现 是 靠 以 下 方式 得 到 的 ， 对 训练 过 程 中 的 回 
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合 数 ， 描 画 最 终 值 好 N) ,这 里 和 前 面 一 样 。 训 练 样 例 是 在 每 个 回合 后 随机 选取 的 。 和 批量 学 习 
一 样 ， 在 线 学 习 的 学 习 曲 线 是 通过 对 足够 大 量 的 随机 选取 的 初始 条 件 上 的 总 体 平均 来 计算 的 。 
自然 地 ， 对 于 给 定 的 网 络 结构 ， 在 线 学 习 下 获得 的 学 习 曲 线 和 批量 学 习 下 获得 的 学 习 曲 线 有 着 
很 大 的 不 同 。 

给 定 训练 样本 以 随机 的 方式 呈现 给 网 络 ， 在 线 学 习 的 使 用 使 得 在 多 维权 值 空间 中 的 搜索 事 
实 上 是 随机 的 ; 正 是 由 于 这 个 原因 ， 在 线 学 习 方 法 有 时 被 称 为 随机 方法 。 这 一 随机 性 具有 所 和 希 
望 的 学 习 过 程 不 容易 陷 人 局 部 极 值 点 的 效果 ， 这 是 在 线 学 习 好 于 批量 学 习 的 明确 意义 所 在 。 在 
线 学 习 的 另 一 个 优点 在 于 它 比 批量 学 习 需 要 的 存储 量 要 少 得 多 。 

而 且 ， 如 果 训 练 数据 是 宛 余 的 〈 即 训练 样本 集 g9 包 含 同 一 个 样 例 的 多 个 复制 )， 我 们 发 现 ， 
和 批量 学 习 不 同 ， 在 线 学 习 能 够 从 元 余 性 中 获 益 ， 因 为 在 一 次 学 习 中 样 例 只 出 现 一 个 。 

在 线 学 习 的 另 一 个 有 用 的 性 质 是 它 能 够 追踪 训练 数据 的 小 的 改变 ， 尤 其 是 产生 数据 的 环境 
是 不 稳定 的 情况 下 。 

总 之 ， 尽 管 在 线 学 习 有 一 些 缺 点 ， 但 它 在 解决 模式 分 类 问题 时 仍然 是 流行 的 方法 ， 原 因 有 
UTAR: 

。 在 线 学 习 容 易 执行 。 

。 对 于 大 规模 和 困难 模式 分 类 问题 它 提 供 有 效 解 。 

正 是 由 于 这 两 个 原因 、 本 章 中 大 量 的 内 容 都 是 关于 在 线 学 习 的 。 


44 反 向 传播 算法 


多 层 感 知 器 监督 训练 在 线 学 习 的 流行 由 于 反 向 传播 算法 的 提出 而 得 到 了 加 强 。 为 了 描述 这 
一 算法 ,考虑 图 4. 3， 它 描绘 神经 元 7 被 它 左 边 的 一 层 神经 元 产生 的 一 组 函数 信号 所 镇 给。 因 
此 ， 在 神经 元 7 的 激活 函数 输入 处 产生 的 诱导 局 部 域 w Cn) Fe 


Uj (2) = >) wi (n) yi Ca) (4, 6) 
i= 
神经 元 J 
y=+1 Q 
Yı (n) q Wy lm) =b, (n) dla) 
w, (a) y(n) gs) yín) sl 
y(n) Q ° O Ó Oe, (n) 
Y„ (n) © 


图 4.3 显现 输出 神经 元 7 细节 的 信号 流 图 


这 里 m 是 作用 于 神经 元 ;7 的 所 有 输入 〈 不 包括 偏 置 ) 个 数 。 突 触 权 值 wj。( 对 应 于 固定 输入 
yo 二 十 1) 等 于 神经 元 j 的 偏 置 5;。 所 以 迭代 nn 时 出 现在 神经 元 j 输出 处 的 函数 信号 y Cn) Ze 
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Yin) = pj (vi(n)) (4, 7) 

反 向 传播 算法 以 与 第 3 章 学 习 过 的 LMS 算法 类 似 的 方式 对 突 触 权 值 w (n) 应 用 一 个 修正 值 
Arwr (n)， 它 正比 于 偏 导 数 O 镍 (n)/9w; (n)。 根 据 微分 的 链 式 规则 ， 可 以 将 这 个 梯度 表示 为 ; 

DEn) _ a(n) de;(n) Oy;(n) Ou; Cn) (4, 8) 


i re 


ow; (n) Oe; ln) dy; (n) dv; ln) dw; (n) 
偏 导 数 O En) (wi (Ca 代表 一 个 敏感 因子 ， 决 定 突 触 权 值 w; 在 权 值 空间 的 搜索 方 同 。 
ERA. 4) 两 边 对 ej (n) 取 微分 ， 得到: 
O €(n) 














Gp e;(n) (4. 9) 
ERA. 2) 两 边 对 y ORB, BE: 
Se Sm (4. 10) 
接着 ， 在 式 (4. 7) 两 边 对 v (n) 取 微分 ， 得到: 
ae a (4. 11) 


这 里 ， 导 数 符号 (等 式 右边 ) 的 使 用 强调 了 对 于 自 变量 的 微分 。 最 后 ， 在 式 (4.6) 两 边 对 
wi MAAT. R: 








Əv; (n) — 
Be m) = y;(n) (4.12) 
将 式 (4. 9) BK (4. 12) 代 人 式 (4. 8)， 得到: 
Om) _ | Po. . 
aw, Cn) =— e; (n)ø; Cu; (n)) y: (n) (4. 13) 
应 用 于 Wiji (n) 的 修正 Aw; (n) 由 delta 法 则 定义 为 
_ on) 
Aw; (n) 一 一 7 See (4, 14) 


其 中 7 是 反 向 传播 算法 的 学 习 率 参数 。 式 (4. 14) 中 负 号 的 使 用 意味 着 在 权 空 间 中 梯度 下 降 CB 
寻找 一 个 使 得 8@(n) 值 下 降 的 权 值 改 变 的 方向 )。 于 是 将 式 (4.13) 代 入 式 (4.14) 中 得 到 : 

Aw; (n) = qô; (n) y: (n) (4. 15) 
这 里 局 域 梯度 6;(n) 定 义 为 : 


ô; (n) = 一 一 一 一 一 一 一 一 一 一 e; (n)@; Cu; (n)) (4. 16) 


局 域 梯度 指明 罕 触 权 值 所 需要 的 变化 。 根 据 式 (4. 16)， 输 出 神经 元 7 的 局 域 梯度 6;(n) 等 于 该 
神经 元 相应 误差 信号 o (n) 和 相应 激活 函数 的 导数 oji (vw; (n)) 的 乘积 。 

从 式 (4. 15) 和 式 (4. 16) 我 们 注意 到 ， 权 值 调整 Aw: (n) 计 算 所 涉及 的 一 个 关键 因子 是 神经 
Ti 输出 端的 误差 信号 e; (n)。 在 这 种 情况 下 ， 我 们 要 根据 神经 元 ; 的 不 同位 置 来 区 别 两 种 不 
同 的 情况 。 第 一 种 情况 ， 神 经 元 j 是 输出 节点 。 这 种 情况 的 处 理 很 简单 ， 因 为 网 络 的 每 一 个 输 
出 节点 都 提供 自己 期 望 的 反应 信号 ， 使 得 计算 误差 信号 变 得 非常 简单 。 在 第 二 种 情况 下 ， 神 经 
Tj 是 隐藏 层 节 点 。 虽 然 隐 藏 层 神经 元 不 能 直接 访问 ， 但 是 它们 分 担 对 网 络 输出 的 误差 的 责 
任 。 然 而 ， 问 题 是 要 知道 对 隐藏 层 神经 元 这 种 共 担 的 责任 如 何 进行 惩罚 或 奖赏 。 这 就 是 在 第 
4: 2 节 中 讨论 过 的 信用 分 配 问题 。 
情况 1 神经 元 j 是 输出 节点 

当 神 经 元 j 位 于 网 络 的 输出 层 时 ， 给 它 提 供 自 己 的 一 个 期 望 响 应 。 我 们 可 以 用 式 (4. 2)? 末 

: 计算 这 个 神经 元 的 误差 信号 ej (n); 参看 图 4. 3。 当 e (n) 确 定 以 后 ， 用 式 (4.16) 来 计算 局 域 梯 
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度 6;(n) 是 很 直接 的 。 

情况 2 神经 元 j 是 隐藏 层 节 点 
当 神 经 元 j 位 于 网 络 的 隐藏 层 时 ， 就 没有 对 该 输入 神经 元 的 指定 期 望 响应 。 因 此 ， 隐 藏 层 的 

误差 信号 要 根据 所 有 与 隐藏 层 神经 元 直接 相连 的 神经 元 的 误差 信号 来 向 后 递归 决定 。 这 就 是 为 什 

么 反 向 传播 算法 的 提出 变 得 很 复杂 的 原因 。 考 虑 在 图 4.4 中 所 描绘 的 情况 ， 它 描绘 的 神经 元 7 就 

是 一 个 网 络 隐 藏 层 节 点 。 根 据 式 (4. 16)， 可 把 隐藏 层 神经 元 的 局 域 梯度 8 (mn) 重 新 定义 为 : 

_ an) dy,(n) Ig 











- 一 一 一 一 - 3 2 FT ; 3 y 
5; (n) Sy, Cn) Do Cay By, (ny Pi ODD RER j 是 隐藏 的 (4. 17) 
神经 元 J 神经 元 大 
人 
n=l Q +10 
Q Wy (n) =b, (a) È PF 
yin) (n) vin) gl) yin) fy Ww vel) gl) ylm) -I ae 
学 © 
é CE 


4.4 显现 输出 神经 元 上 连接 到 隐藏 神经 元 7 的 信号 流 图 


公式 的 第 二 行 用 到 了 式 (4. 11)。 要 计算 偏 导 3 嘎 (n)/By;(n) 我 们 进行 如 下 处 理 。 从 图 4. 4 可 以 
看 到 : 


En) 一 二 了 eCn) ,神经 元 大 是 输出 节点 (4. 18) 
kEC 


这 就 是 对 式 (4. 4) 用 下 标 上 替代 下 标 7 。 这 么 写 是 为 了 避免 与 在 情况 2 使 用 下 标 ; 表示 一 个 隐藏 
神经 元 相 混 淆 。 在 式 (4. 18) 两 边 对 函数 信号 y; CO RS. BS: 

oC) _ 和 oe. (n) 

Əy; (n) A * oy; (n) 
接着 对 偏 导 数 OE, Cn) /dy; (za) 使 用 链 式 规 则 ， 重 写 式 〈4. 19) 为 等 价 形式 ， 


IEn) _ e, (n) Ov, Cn) 
oy (n) Dern) Ou, (2) Oy; ln) re? 


然而 ， 从 图 4.4 我 们 注意 到 : 
aem=aim—-yM=aa—-e@elutd), 神经 元 上 为 输出 节点 (4. 21) 


(4. 19) 




















因此 
oe, (n) pe 3 
GD. pe Cu, (n)) (4, 22) 
我 们 从 图 4. 4 也 要 注意 到 对 神经 元 & 来 说 ， 诱 导 局 部 域 是 ， 
v (n) = Su; (n) y; Cn) (4. 23) 


j=0 
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这 里 m 是 神经 元 的 所 有 输入 的 个 数 〈 不 包括 偏 置 )。 辐 样 在 这 里 罕 触 权 值 wo (nr) SF EA 
神经 元 上 的 偏 置 b(n)， 相 应 的 输入 是 固定 在 值 十 1 处 的 。 求 式 (4. 23) 对 y; (mn) 的 微分 得 到 : 








Ou, (n) Ea 
=e aa Wy (n) (4. 24) 
用 式 (4. 22) 和 式 (4. 24) 代 入 式 (4. 20), BIB AA: 
sean 一 一 Sles(n) gi (uy (n)) wy (n) =— S18, (0) wy (n) (4. 25) 


在 第 二 行 用 到 局 域 梯度 2 (2) 的 定义 ， 它 由 式 (4. 16) 给 出 ， 其 中 用 下 标 & 替代 7 。 
最 后 ， 用 式 (4. 25) 代 人 式 (4. 17)， 得 到 关于 局 域 梯度 上 (2) 的 反 回 传播 公式 : 






ô; Cn) = p; Cu (n) ) X sn) wy (n), 神经 元 7 为 隐藏 单元 (4. 26) 
图 4.5 代表 式 (4. 26) 的 信号 流 图 ， 假设 输出 层 有 m 个 神经 元 。 
在 式 (4.26) 中 与 局 域 梯度 8 (mn) 的 计算 有 关 的 因子 5,(n) 91% (0) 
gCv;(n)) 仅 仅 依赖 于 隐藏 层 神经 元 j 的 激活 函数 。 这 个 计 = am 


算 涉 及 的 其 余 因 子 ， 也 就 是 所 有 神经 元 & 的 和 ， 依 赖 于 两 
组 项 。 第 一 项 的 集合 需要 以 下 神经 元 的 误差 信号 ei (nn) 的 知 
识 ， 这 些 神经 元 紧 接 隐藏 层 神经 元 j 右 端 ， 且 直接 与 神经 
元 7 相连， 参看 图 4.4。 第 二 项 的 集合 wi (n) 是 由 有 所有 这 些 Ön (n) 


5 m) wln) bn) gi (Vi (m)) 






连接 的 突 触 权 值 组 成 的 。 Pn, Yq, (1) ) 
现在 ， 我 们 总 结 一 下 反 向 传播 算法 的 导出 。 痛 先 ， 由 E E eee 
神经 元 连 按 到 和 神经 元 j 的 突 触 权 值 的 校正 值 AW ji (n) H 系统 的 部 分 信号 流 图 
delta 规则 定义 如 下 : 
权 值 Peer ee pü 
| E Ws 人 ~ PE 
ues 7 ô; Cn) y;(n) 


其 次 ， 局 域 梯度 8; (n) 取 决 于 神经 元 ; 是 一 个 输出 节点 还 是 一 个 隐藏 层 节 点 : 

1. 如 果 神 经 元 7 是 一 个 输出 节点 ，B6 (nn) 等 于 导数 oj (vj (n)) 和 误差 信号 e (n) 的 乘积 ， 它 
们 都 和 神经 元 ; 相关 联 ， 参看 式 (4. 16) 。 

2. 如 果 神 经 元 ;j ERRETA, (n) 等 于 相应 导数 pg; (yO) MS 的 加 权 和 的 乘积 ， 这 
i 8, 是 对 与 神经 元 7 相连 的 下 一 个 隐藏 层 或 输出 层 中 的 神经 元 计算 得 到 的 ;参看 式 (4. 26). 
计算 的 两 次 通过 

在 反 向 传播 算法 的 应 用 中 ， 计 算 有 两 种 截然 不 同 的 通过 。 第 一 个 通过 是 指 前 向 通过 ， 而 第 
二 个 是 指 反 向 通过 。 

在 前 向 通过 中 ， 经 过 网 络 时 突 触 权 值 保持 不 变 ， 而 网 络 的 函数 信号 在 一 个 神经 元 接 一 个 神 
经 元 基础 上 计算 。 出 现在 神经 元 ; 输出 处 的 函数 信和 号 计算 为 : 


yi(n) = glv;(n)) (4. 28) 
其 中 vj (nn) 是 神经 元 j 的 诱导 局 部 域 ， 定义 为 : 
v; (n) = X, w; (n) yi (n) (4. 29) 


这 里 ，m 是 神经 元 i 的 所 有 输入 的 数量 (不 包括 偏 置 )， 而 wi (n) 是 连接 神经 元 i 和 神经 元 7 的 
突 触 权 值 ，y;(n) 是 指 神经 元 j 的 输入 信号 或 是 出 现在 神经 元 i 的 输出 端的 函数 信号。 如 果 神 经 
元 5 在 网 络 的 第 一 隐藏 展 ， 则 mx 二 mm。 且 下 标 i 是 指 网 络 的 第 i 个 输入 端点 ， 我 们 写作 : 

yi(n) = z;(n) (4. 30) 
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这 里 zx;(n) 是 指 输入 问 量 (模式 ) 的 第 ;个 元 素 。 在 另 一 方面 ， 如 果 神 经 元 7 在 网 络 的 输出 层 ， 
Wm=-m,, FAT in 是 指 网 络 的 第 7 个 输出 端点 ， 我 们 写作 : 
yim) = 0; Cn) (4. 31) 

这 里 o (n) 248 S eB RA SE Sf 个 元 素 。 这 个 输出 和 期 望 啊 应 Cr FER. TBE 
7 个 输出 神经 元 的 误差 信号 e;(n)。 因 此 ， 计算 的 前 向 阶段 由 输入 向 量 馈 给 的 第 一 个 隐藏 层 开 
始 ， 以 输出 层 计算 该 层 的 每 一 个 神经 元 的 误差 信号 而 结束 。 

另 一 方面 ， 反 向 通过 从 输出 层 开始 ， 误 差 信 号 向 左 经 过 网 络 一 层 一 层 传播 ， 并 且 递 归 计 算 
每 一 个 神经 元 的 8( 即 局 部 梯度 )。 该 递归 过 程 允许 突 触 权 值 根据 式 (4. 27) 的 delta 规则 变化 。 
对 于 位 于 输出 层 的 神经 元 ,6 简单 地 等 于 这 个 神经 元 的 误差 信号 滋 以 它 的 非 线性 一 次 导数 。 因 
此 ， 我 们 使 用 式 (4. 27) 来 计算 所 有 人 馈 人 输出 层 的 连接 的 权 值 变化 。 给 出 输出 层 神 经 元 的 3， 接 
SANG. 26) 来 计算 倒数 第 二 层 的 所 有 神经 元 的 8 和 所 有 人 馈 和 该 层 的 连接 的 权 值 变化 。 通 过 传 
播 这 个 变化 给 网 络 的 所 有 突 触 权 值 ， 一 层 接 一 层 连续 递归 计算 。 

注意 ， 由 于 每 给 出 一 个 训练 例子 ， 其 输入 模式 在 整个 往返 过 程 中 是 固定 的 (钳制 的 );， 这 
个 往返 过 程 包括 前 向 通过 和 随后 的 反 回 通过 。 
激活 函数 

计算 多 层 感 知 器 每 一 个 神经 元 的 需要 神经 元 的 激活 函数 pg(，) 的 导数 知识 。 导 数 存在 
的 条 件 是 函数 o(，) 连 续 。 从 根本 上 讲 ， 激 活 函 数 必需 满足 的 要 求 是 可 微 性 。 通 常用 于 多 层 
感知 器 的 连续 可 微 非 线性 激活 函数 的 一 个 例子 是 sigmoid 非 线性 性 :; 这 里 有 两 种 形式 要 说 
= 

1. logistic 函数 。 这 种 sigmoid 非 线性 性 的 一 般 形式 由 

1 

1+ exp(— av, (n))’ 
定义 ， 这 里 uw 是 神经 元 的 诱导 局 部 域 。 根 据 这 种 非 线 性 性 ， 输 出 的 范围 位 于 OSs, <1 
之 内 。 对 式 (4. 32) 取 uy MKA. FE 


g; Cu; (n)) = 


p; Cu; (n)) = a `> 0 (4. 32) 


QAEXP\— daU; \ n 
ep (4. 33) 
由 于 yj (na) =g; Cu (n))， 我 们 可 以 从 式 (4.33) 中 消去 指数 项 exp (一 av; (n)), 所 以 导数 
gp; Cu; 《nn)) 可 以 表示 为 : 
pi Cuy n) = ay; WL1 — y; m] (4. 34) 
因为 神经 元 7 位 于 输出 层 ， 所 以 y; (n) = 二 0;(n)。 因 此 可 以 将 神经 元 7 的 局 域 梯度 表示 为 
6;(n) = e;(n) 9360; (n)) = ald; (n) — o;(n) Jo;(n)L1 — 0,(n) 1,7 输出 节点 (4, 35) 
这 里 的 o (2) 是 神经 元 7 输出 端的 函数 信号 ， 而 d; (n) 是 它 的 期 望 响应 。 另 一 方面 ， 对 任意 的 一 
个 隐藏 层 神经 元 7 ， 可 以 将 局 域 梯度 表示 为 : 
5,(n) = 95 Cu; (n)) Dds) wy (n) 
: (4, 36) 
= ay; Cm)[1 一 y(n)] Va Mw (n)，j 为 隐藏 神经 元 


从 式 (4.34) 可 以 看 出 ， 导 数 oj ( (nn)) 当 y (mn) 二 0.5 时 取 最 大 值 ， 当 y 2) =0 或 y(n) 二 1 
时 取 它 的 最 小 值 0) 。 既 然 网 络 的 一 个 突 触 权 值 的 变化 总 量 与 导数 w (vj Gd) 成 比例 ,因此 对 
于 一 个 sigmoid 激活 函数 来 说 ， 突 触 权 值 改变 最 多 的 神经 元 是 那些 函数 信号 在 它们 的 中 间 范 围 
之 内 的 网 络 的 神经 元 。 根 据 Rumelhart 等 〈1986a) ， 正 是 反 向 传播 学 习 的 这 个 特点 导致 它 作 为 
学 习 算 法 的 稳定 性 。 

2, 双 曲 正切 函数 。 另 外 一 个 经 常 使 用 的 sigmoid 非 线性 形式 是 双 曲 正切 函数 ， 它 的 最 通用 
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的 形式 由 

Di (n)) = atanh(bv; (n)) (4. 37) 
定义 ， 这 里 MOREA. SRL, MHD BRR E A AEE HM logistic HRM. EX 
v;(n) 的 导数 如 下 : 


yi (vi;(n)) = absech’ Chv; (n)) = ab(1 — tanh’ (bw; (n))) = PTa — y; (n) Jla + y;(n)] 
(4. 38) 
如 果 神 经 元 7 位 于 输出 层 ， 它 的 局 域 梯度 是 ， 
6; (n) = e; (n) 9; Cu; (n)) 
= PTa; in) eC lesa o lara] (4. 39) 


如 果 神 经 元 7 位 于 隐藏 层 ， 我 们 有 
8;(n) = 9360; (n)) S36, (1) wy (n) 
; (4. 40) 
= 2 [a — y(n) [ato] 6. Mwy (n) ,神经 元 j 为 隐藏 神经 元 
k 


对 logistic 函数 使 用 式 (4. 35) 和 式 (4., 36) AX A HH E 0 2 Bh ft HR C. 39) 和 式 (4. 40), AG 
要 激活 函数 的 具体 信息 就 可 以 计算 局 域 梯度 $ 。 
学 习 率 | 

反 向 传播 算法 提供 使 用 最 速 下 降 方法 在 权 空间 计算 得 到 的 轨迹 的 一 种 近似 。 使 用 的 学 习 率 
参数 wp 越 小 ， 从 一 次 迭代 到 下 一 次 迭代 的 网 络 突 触 权 值 的 变化 量 就 越 小 ， 轨 迹 在 权 值 空间 就 越 
光滑 。 然 而 ， 这 种 改进 是 以 减 慢 学 习 速 度 为 代价 的 。 另 一 方面 ， 如 果 让 7 的 值 太 大 以 加 快 学 习 
速度 的 话 ， 结 果 就 有 可 能 使 网 络 的 突 触 权 值 的 变化 量 不 稳定 ( 即 振荡 )。 一 个 既 要 加 快 学 习 速 度 
又 要 保持 稳定 的 简单 方法 是 修改 式 (4. 15) 的 delta 法 则 ， 使 它 包 括 动量 项 ， 表 示 为 


Aw; (n) = aw (n— 1) + nò; Gn) yi GD) (4. 41) 
这 里 a 是 动量 常数 ， 通 常 是 正 数 。 它 控制 围绕 Aw (n) 的 8(n) y(n) 
反馈 环 路 ， 如 图 4.6 所 示 ， 其 中 盖 :表示 单位 时 间 延 迟 操作 
符 。 式 (4.41) 被 称 之 为 广义 delta MMP; 它 包括 式 (4. 15) 


的 delta 规则 作为 特殊 情况 〈 即 c 一 0) 。 

为 了 观察 动量 常数 a 在 一 系列 模式 呈现 上 对 突 触 权 值 
的 影响 ， 我 们 将 式 (4. 41) 重 新 写 为 带 下 标 寺 的 一 个 时 间 序 
列 。 索 引 z 从 初始 时 刻 0 到 当前 时 刻 n。 式 (4. 41) 可 被 视 为 图 4.6 说 明 动 量 常数 a 作用 的 信号 
权 值 修正 量 Aw: (n) 的 一 阶 差分 方程 。 解 这 个 关于 Aw (n) i 
的 方程 得 到 


Aw,(n-1) Awn) 


Aw; (n) = n Var 人 (2) y; (2) (4.42) 
它 代 表 一 个 长 度 为 n 十 1 的 时 间 序 列 。 从 式 (4. 13) 和 式 (4. 16), ， 可 知 0; Cn) y (FO En) / 
Ow, (n)。 因 此 将 方程 (4. 42) 重 写 为 等 价 形式 : 
ag 
AW ji (n) =... 12a Ses (4. 43) 
在 这 个 关系 的 基础 上 ， 我 们 来 做 以 下 深入 观察 : 


1. 当前 修正 值 Aw (n) 代 表 指 数 加 权 的 时 间 序 列 的 和 。 和 欲 使 时 间 序 列 收 化 ， 动 量 常 数 必须 
限制 在 0 和 | a | <1 范围 内 。 当 a 等 于 0 时 ， 反 向 传播 算法 运行 起 来 没有 动量 。 虽然 在 实际 中 
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Bis Boa 不 大 可 能 是 负 的 ， 但 它 还 是 可 正 可 负 。 

2. 当 偏 导数 od) /Bw (四) 在 连续 迭代 中 有 相同 的 代数 符号 ， 指 数 加 权 和 Aww (nn) 在 数量 
上 增加 ， 所 以 ， 权 值 Aw, (nn) 被 大 幅度 调整 。 在 反问 传播 算法 中 包含 动量 趋 于 在 稳定 的 下 降 方 
同上 加 速 下 降 。 

3. 当 偏 导数 OE) /3w; (b 在 连续 迭代 中 有 相反 的 代数 符号 ， 指 数 加 权 和 Aw (nn) 在 数量 
上 减少 ， 所 以 ， 权 值 wz (n) 调 整 不 大 。 在 反 向 传播 算法 中 包含 动量 具有 符号 正人 负 摆 动 方 向 的 稳 
EAR. 

在 反 向 传播 算法 中 ， 动 量 的 使 用 对 更 新 权 值 来 说 是 一 个 较 小 的 修改 ， 而 它 对 算法 的 学 习 
可 能 会 有 一 些 有 利 的 影响 。 动 量 项 可 能 也 有 益 于 防止 学 习 过 程 停止 在 误差 曲面 上 的 局 部 最 
小 值 。 

在 导出 反 向 传播 算法 时 假设 学 习 率 参数 了 是 一 个 常数 。 然 而 ， 事 实 上 它 应 该 被 定义 为 Hi 
也 就 是 说 ， 学 习 率 参数 应 该 是 连接 依赖 (connection dependent) MJ. MAS. 在 网 络 的 不 同 地 
方 使 用 不 同 的 学 习 率 参数 会 发 生 很 多 有 趣 的 事情 。 关 于 这 一 点 在 后 续 节 中 我 们 会 给 出 详细 
摘 述 。 

同样 值得 注意 的 是 ， 我 们 在 反 向 传播 算法 的 应 用 中 可 以 选择 使 所 有 突 触 权 值 都 是 可 调整 
的 ， 或 者 在 自 适应 过 程 中 可 能 限制 网 络 中 某 些 权 值 使 其 保持 固定 。 对 于 后 者 ， 误 差 信 和 号 是 以 通 
常 的 方式 通过 网 络 反 向 传播 的 ;， 然而， 固定 的 突 触 权 值 是 不 改变 的 。 这 一 点 可 以 简单 通过 使 突 
触 权 值 的 学 习 率 参数 wp; 等 于 0 来 做 到 。 
停止 准则 

通常 ， 不 能 证 明 反 向 传播 算法 是 收敛 的 ， 并 且 没 有 明确 定义 的 算法 停止 准则 。 相 反 ， 仅 有 
一 些 合理 的 准则 ， 它 们 每 个 都 有 自己 的 实际 用 处 ， 这 些 准 则 可 以 用 于 终止 权 值 的 调整 。 要 提出 
这 样 一 个 准则 ， 考 虚 关 于 误差 曲面 ; 的 局 部 或 全 局 最 小 的 特殊 性 质 是 符合 逻辑 的 。 将 权 值 癌 量 
w 标记 为 局 部 或 全 局 最 小 点 。 要 使 w’ 成 为 最 小 点 的 一 个 必要 条 件 是 误差 曲面 对 权 值 向 量 w 的 
梯度 向 量 gCw) 〈 即 一 阶 偏 导 数 ) Ziwew 处 等 于 0。 因 此， 我 们 可 以 提出 反问 传播 学 习 的 一 
个 合理 的 收敛 准则 (Kramer and Sangiovanni-Vincentelli, 1989); 

当 梯 度 向 量 的 欧 几 里 得 范 数 达到 一 个 充分 小 的 梯度 阅 值 时 ， 我 们 认为 反 向 传播 算法 已 经 收敛。 

这 个 收敛 准则 的 缺点 是 ， 为 了 成 功 试 验 ， 学 习 时间 可 能 会 很 长 。 同 时 它 需 要 计算 梯度 回 量 gw). 

另 一 个 我 们 能 够 使 用 的 最 小 点 的 特殊 性 质 是 代价 函数 或 误差 量度 BB,《w) 在 ww" 处 是 平稳 
的 。 因 此 ， 我 们 可 以 建议 一 个 不 同 的 收敛 准则 : 

当 每 一 个 回合 的 均 方 误差 变化 的 绝对 速率 足够 小 时 ， 我 们 认为 反 向 传播 算法 已 经 收敛。 
均 方 误差 变化 的 速率 如 果 每 个 回合 是 在 0.1% 一 1 外 ， 一 般 认 为 它 足 够 小 。 有时， 每 一 个 回合 
都 会 小 到 0. 01%% 这 样 的 值 。 不 幸 的 是 ， 这 个 准则 可 能 会 导致 学 习 过 程 的 过 早 终止 。 

还 存在 另 一 个 有 用 的 且 有 理论 支持 的 收敛 准则 。 在 每 一 步 学 习 迭 代 之 后 ， 剖 要 检查 网 络 的 
泛 化 性 能 。 当 泛 化 性 能 是 适当 的 ， 或 泛 化 性 能 明显 达到 峰值 时 ， 学 习 过 程 被 终止 : 第 4.13 节 
将 介绍 更 多 细节 。 

反 疝 传播 算法 小 结 

图 4. 1 给 出 了 一 个 多 层 感 知 器 的 结构 布局 。 图 4.7 给 出 了 世 王 2 Wm =m =m, = 3 的 情况 
下 反 向 传播 学 习 的 相应 的 信号 流 图 ， 包 括 学 习 过 程 计 算 的 前 向 和 反 向 阶段 。 信 号 流 图 的 上 面 一 
部 分 是 说 明 前 向 通过 的 。 信 号 流 图 的 下 面 一 部 分 是 说 明 反 向 通过 的 ， 这 也 称 为 在 反 向 传播 算法 

中 计算 局 域 梯度 的 灵 教 图 (sensitivity graph) (Narendra and Parthasarathy, 1990). 
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图 4.7 反 向 传播 学 习 信 和 号 流 图 小 结 。 图 顶部 : 前 向 通过 。 图 底部 : 反 向 通过 


前 面 我 们 提 到 权 值 的 串 行 更 新 是 反 向 传播 算法 的 在 线 实现 的 更 好 方法 。 对 这 种 运行 方式 ， 
算法 通过 训练 样本 ala), da) 2 =1 进行 如 下 循环 : 

1. 初始 化 。 假 设 没有 先 验 知识 可 用 ， 我 们 以 一 个 一 致 分 布 来 随机 地 挑选 突 触 权 值 和 阅 值 ， 
这 个 分 布 选择 为 均值 等 于 0 的 均匀 分 布 ， 它 的 方差 的 选择 应 该 使 得 神经 元 的 诱导 局 部 域 的 标准 
偏差 位 于 sigmoid 激活 函数 的 线形 部 分 与 饱和 部 分 过 滤 处 。 

2. 调 练 样本 的 哇 现 。 呈 现 训练 样本 的 一 个 回合 给 网 络 。 对 训练 集中 以 某 种 形式 排序 的 每 
个 样本 ， 依 次 进行 下 面 的 第 3 点 和 第 4 点 中 所 描述 的 前 向 和 反 向 计算 。 

3. 前 向 计算 。 在 该 回合 中 设 一 个 训练 样本 是 (x(n),d(n))， BANE x(n) 作 用 于 感知 节 
点 的 输入 层 ， 期 望 响应 向 量 d(n) 指 向 计算 节点 的 输出 层 。 不 断 经 由 网 络 一 层 一 层 地 前 进 ， 可 
以 计算 网 络 的 诱导 局 部 域 和 函数 信号 。 在 层 / 的 神经 元 7 的 诱导 局 部 域 ,;”(n) 为 

vn) = wh my Cr) (4. 44) 


这 里 y{?(n) 是 迭代 时 前 面 第 /一 1 层 的 神经 元 ee CRO fas, MM wi? (mn) 是 从 
第 /一 1 层 的 神经 元 i 指向 第 7 层 的 神经 元 7 的 权 值 。 对 i 二 0， 我们 有 w Cast, HH 
wE (n) 二 64?(n) 是 第 /1 层 的 神经 元 i 的 偏 置 。 假 设 使 用 一 个 sigmoid ma, Wl MHA j 
的 输出 信号 是 : 
yi? = ov; (n)) 
如 果 神 经 元 7 是 在 第 一 隐藏 层 〈 即 = 1), E 
ys (n) = zx; (nn) 
这 里 zi; (2) 是 输入 向 量 z(n) 的 第 j 个 元 素 。 如 果 神 经 元 ; 在 输出 层 〈 即 /二 L， 这 里 的 上 称 为 网 
络 的 深度 ) ， 令 
yP = 0; (n) 
计算 误差 信号 
e,(n) = d;(n)— o; (n) (4. 45) 
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这 里 4;(n) 是 期 望 响应 向 量 d(n) 的 第 7 个 元 素 。 
4. 反 向 计算 。 计 算 网 络 的 8 ( 即 局 域 梯度 ) ， 定 义 为 : 


eP (no; (uf (n)), 对 输出 技工 的 神经 元 7 
(2) = 
D M 二 gC aD WE? (nw? (Cn)， 对 隐藏 层 1 的 神经 元 j (HERG) 
这 里 o (") 是 指 对 自 变量 的 微分 。 根 据 广 义 delta 规则 调节 网 络 第 i 层 的 突 触 权 值 : 
wy (n+ 1) = wi Cn) + aL wi’ Ga — 1) J+ 967? (Di (n) (4. 47) 


这 里 7 为 学 习 率 参数 ，u 为 动量 常数 。 

5. 选 代 。 通 过 呈现 新 的 一 回合 样本 给 网 络 并 根据 第 3 和 第 4 进行 前 向 和 反 向 迭代 计算 ， 
直到 满足 停止 准则 。 

注意 ;训练 样本 的 呈现 顺序 从 一 个 回合 到 另 一 个 回合 必须 是 随机 的 。 动 量 和 学 习 率 参数 随 
着 训练 送 代 次 数 的 增加 而 调整 (通常 是 减少 的 )。 以 后 会 给 出 这 些 注意 点 的 理由 。 


4.5 异 或 问题 


在 Rosenblatt 单 层 感知 器 中 ， 没 有 隐藏 神经 元 。 因 此 ， 它 不 能 对 非 线性 可 分 的 输入 模式 
进行 分 类 。 然 而 ， 非 线性 可 分 模式 却 是 普遍 存在 的 。 例 如 ， 对 异 或 (COR) 问题 就 遇 到 这 
种 情形 ， 它 可 以 看 作 在 单位 超 立 方 体 中 更 一 般 的 点 分 类 问题 的 特例 。 在 超 立 方 体 中 的 每 个 点 
不 是 属于 类 0 就 是 属于 类 1。 但 是 对 异 或 问题 特殊 情形 ， 我们 仅 考 虑 单位 正方 形 的 四 个 角 ， 
相应 的 输入 模式 为 (0，0)，(0，1)，(1，0) 和 (1，1)。 第 一 个 和 第 三 个 输入 模式 属于 类 
O, BẸ 

0o@0=0 
和 

1@m1=0 
x HOB MER RAR MRSA. MARK (0，0) 和 A, D 是 单位 正方 形 的 两 个 相对 的 
角 ， 但 它们 产生 相同 的 结果 是 0。 另 一 方面 ， 输 入 模式 O0, DA (1，0) 是 单位 正方 形 的 为 
一 对 相对 的 角 ， 但 是 它们 属于 类 1， 即 

0 中 1 一 1 
和 

1 中 0 一] 

首先 我 们 知道 有 两 个 输入 的 单个 神经 元 的 使 用 得 到 的 决策 边界 是 输入 空间 的 一 条 直线 。 
在 这 条 直线 的 一 边 的 所 有 的 点 ， 神 经 元 输出 1; 而 在 这 条 直线 的 另 一 边 的 点 ， 神 经 元 输出 0。 
在 输入 空间 中 ， 这 条 直线 的 位 置 和 方向 由 与 两 个 输入 节点 相连 的 神经 元 的 突 触 权 值 和 它 的 侦 
置 决定 。 由 于 输入 模式 0,0 和 A, D 是 位 于 单位 正方 形 的 相对 的 两 个 角 ， 输 入 模式 
(O, 1) 和 C, O 也 一 样 ， 很 明显 我 们 做 不 出 这 样 一 条 直线 作为 决策 边界 可 以 使 O, 0) 
和 G, D 在 一 个 区 域 , 而 (1，0) 和 (0，1) 在 另 一 区 域 。 换 名 话说， 一 个 单 层 感知 器 
不 能 解决 XOR 问题 。 

然而 ， 如 图 4. 8a 中 所 示 ， 我 们 可 以 使 用 一 层 有 两 个 神经 元 的 隐藏 层 来 解决 异 或 问题 
(Touretzky and Pomerleau，1989)。 网 络 的 信号 流 图 在 图 4. 8b 中 给 出 。 这 里 做 以 下 假设 : 

。 每 一 个 神经 元 都 由 一 个 McCulloch-Pitts 模型 表示 ， 使 用 阐 值 函数 作为 它 的 激活 函数 。 

。 比特 符号 0 和 1 分 别 由 水 平 0 和 十 1 Rm. 

隐藏 层 顶 部 的 神经 元 标记 为 “神经 元 1 ”， 有 


Wi, 一 Wiz 一 十 1] b -一方 
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图 4.8 a) 解决 XOR 问题 的 网 络 结构 图 ; b) 网 络 信号 流 图 


该 隐藏 神经 元 构造 的 决策 边界 的 斜率 等 于 一 1， 在 图 4. 9a 中 给 出 其 位 置 。 在 隐藏 层 的 底部 神经 
元 标记 为 “神经 元 2”， 有 


Wa = We =el b: =- > 


第 二 隐藏 神经 元 构造 的 决策 边界 的 方向 和 位 置 由 图 4. 9b 给 出 。 
图 4. 8a 的 标记 为 “神经 元 3” 的 输出 神经 元 定义 为 


wal =— 2 wz 一 十 1 b; or 


2 

输出 神经 元 的 功能 是 对 两 个 隐藏 神经 元 形成 的 决策 边界 构造 线性 组 合 。 这 个 计算 结果 表示 在 
图 4. 9c 中 。 底 部 隐藏 神经 元 由 一 个 兴奋 〈 正 ) 连接 到 输出 神经 元 ， 而 顶部 隐藏 神经 元 由 一 个 
更 强 的 抑制 〈 负 ) 连接 到 输出 神经 元 。 当 两 个 隐藏 神经 元 都 断 开 时 ， 这 种 情况 当 输 入 信号 是 
(0，0) 时 发 生 ， 输 出 神经 元 保持 断 开 。 当 两 个 隐藏 神经 元 都 接 通 时 ， 这 种 情况 当 输 入 模式 是 
d, D 时 发 生 ， 输 出 神经 元 也 保持 断 开 ， 因 为 由 连 向 顶部 隐藏 神经 元 负 权 值 产生 的 抑制 效果 
超过 由 连 回 底部 隐藏 神经 元 正 权 值 产 生 的 兴奋 效果 。 当 顶部 隐藏 神经 元 是 断 开 的 而 底部 隐藏 神 
经 元 是 接 通 的 ， 即 输入 模式 是 (0，1) 或 d, 0 时 ， 输 出 神经 元 是 接 通 的 ， 因 为 正 的 权 值 连 
向 了 底部 隐藏 神经 元 。 因 此 图 4. 8a 确实 解决 了 异 或 问题 。 


(0,1) (1,1) (0,1) (1,1) WI 


(0,0) 





图 4.9 a) 在 图 4,8 中 的 网 络 隐藏 神经 元 1 所 构造 的 决策 边界 ;b) 网 络 隐藏 神经 元 2 所 构造 的 决策 边界 ，; 
c) 整个 网 络 所 构造 的 决策 边界 


4.6 改善 反 向 传播 算法 性 能 的 试探 法 | 
人 们 党 说 ， 用 于 反 向 传播 算法 的 神经 网 络 的 设计 与 其 说 是 科学 ， 不 如 说 更 像 一 门 艺 术 ， 因 
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为 这 个 设计 中 的 很 多 数值 因素 依赖 于 个 人 自己 的 经 验 。 从 菜 种 意义 上 讲 这 个 论断 是 正确 的 。 但 
是 ， 也 有 些 方法 能 对 反 向 传播 算法 有 显著 提高 ， 如 下 所 述 : 

1. 随机 和 批量 方式 更 新 。 如 前 面 已 经 提 到 过 的 ， 反 向 传播 学 习 的 随机 〖〈 串 行 ) 方式 ( 涉 
及 一 个 模式 接 一 个 模式 的 更 新 ) 要 比 批量 方式 的 计算 快 。 特 别 是 当 训 练 数据 集 很 大 且 高 度 元 余 
时 ， 更 是 如 此 。( 高 度 完 余 的 数据 对 批量 方式 更 新 所 需要 的 Jacobi 矩阵 的 估计 提出 了 计算 上 的 
可 题 。) 

2. 最 大 信息 内 容 。 作 为 一 个 基本 的 规则 ， 对 呈现 给 反 向 传播 算法 的 每 一 个 训练 样本 的 挑选 必须 
建立 在 其 信息 内 容 对 解决 问题 有 最 大 可 能 的 基础 上 〈LeCun，1993) 。 达 到 这 个 目标 的 两 种 方法 是 : 

。 使 用 训练 误差 最 大 的 样本 。 

。 使 用 的 样本 要 与 以 前 使 用 的 有 根本 区 别 。 

这 两 个 试探 方法 起 因 于 对 权 空 间 进行 更 多 搜索 的 愿望 。 

在 模式 分 类 的 任务 中 使 用 串 行 反 向 传播 学 习 ， 经 常 使 用 的 一 个 简单 技巧 是 将 样本 的 每 个 回 
合 呈现 给 多 层 感 知 器 的 顺序 随机 化 ( 即 弄 乱 )。 理 想 情 况 下 ， 随 机 化 可 以 确保 一 个 回合 中 的 相 
继 的 样本 很 少 属于 同一 类 。 

3. 激活 函数 。 在 考虑 学 习 速 度 的 情况 下 ， 较 好 的 选择 是 采用 关于 其 自 变 量 为 奇 函 数 的 
sigmoid% is AS, Bp 
g(— v) =— g(— v) 

如 下 的 双 曲 函数 是 满足 这 个 条 件 的 
of(D) = atanh(bv) 
如 图 4. 10 所 示 ， 但 是 logistic 函数 不 满足 这 个 条 件 。 在 wo(v) 中 系统 规定 参数 a Mb 的 合适 的 值 
是 (LeCun, 1989, 1993) 
a=1.7159 
和 


— 2 
Cre 


图 4. 10 HO HH ERRA i FA RE : 
e DSI 和 8 一 1 一 一 上 上 。 
。 在 原点 激活 函数 的 倾斜 度 〈 即 有 效 增 益 ) 接近 于 1， 如 下 所 示 : 
o(0) =ab =1. 715 9(4) =1. 1424 
ø (v) 


a=1.715 9 





Ca a=-1.7159 


图 4.10 Æ a=1.7159 Ml b= 2/3 时 的 双 曲 正切 函数 gC(v) 二 atanh(bv) 的 图 形 。 推 荐 的 目标 值 是 十 1 和 一 1 
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© po) 的 二 阶 导数 在 v= 王 1 时 达到 最 大 。 
4. 目标 值 。 在 sigmoid 激活 晒 数 的 范围 内 选择 目标 值 〈 期 望 响应 ) 是 很 重要 的 。 更 具体 来 说 ， 
多 层 感 知 器 输出 层 的 神经 元 7 的 期 望 响应 必 必须 与 sigmoid 激活 函数 的 极限 值 偏离 某 个 se 值 ， 具 体 
取决 于 极限 值 是 正 或 负 。 否 则 反 办 传播 算法 会 使 网 络 的 自由 参数 趋向 于 无 穷 大 ， 驱 使 隐藏 神经 元 达 
到 饱和 从 而 减 慢 学 习 过 程 。 具 体 讲 ， 考 虑 图 4. 10 所 示 的 双 曲 正切 函数 。 对 于 极限 值 十 a， 我 们 令 
d; =a—e€ 
对 于 有 限 值 一 a， 我 们 令 
d; =—a +e 
这 里 es 是 一 个 合适 的 正常 数 。 对 图 4. 10 中 选择 的 a=1.7159, AMUS e=0.7159, x4., HER 
(id 可 以 方便 地 选 为 土 1， 正 如 图 所 示 的 那样 。 | 
5. 输入 的 标准 化 。 每 一 个 输入 变量 都 需要 预 处 理 ， 使 得 它 关 于 整个 训练 集 求 平均 的 均值 
接近 0， 或 者 与 标准 偏差 相 比 是 比较 小 的 〈LeCun，1993) 。 为 评价 这 个 规则 的 实际 意义 ， 我 们 
考虑 输入 恒 正 的 极端 情况 。 在 这 种 情况 下 ， 第 一 隐藏 层 的 一 个 神经 元 的 所 有 突 触 权 值 只 能 同时 
增加 或 同时 减少 。 所 以 ， 如 果 这 个 神经 元 权 值 问 量 改 变 方 品 ， 则 它 的 误差 曲面 的 路 径 变 成 句 齿 
形 的 ， 这 会 使 收敛 速率 变 慢 ， 因 此 应 该 避免 。 
要 加 速 反 癌 传播 学 习 的 过 程 ， 输 入 变量 的 标准 化 必须 包括 下 面 两 个 步 比 (LeCun，1993): 
。 训练 集 包 含 的 输入 变量 应 该 是 不 相关 的 ; 这 可 以 通过 第 8 章 提 到 的 主 分 量 分 析 法 来 做 到 。 
。 去 相关 后 的 输入 变量 应 调整 其 长 度 使 得 它们 的 协 方 差 近 似 相 等 ， 因 此 可 以 保证 网 络 中 
的 不 同 突 触 权 值 以 大 约 相 等 的 速度 进行 学 习 。 
图 4. 11 说 明 依次 执行 三 个 标准 化 步骤 的 结果 : 消除 均值 、 去 相关 性 以 及 协 方差 均衡 。 





数据 点 的 原始 集合 








图 4.11 二 维 输入 空间 的 消除 均值 、 去 相关 性 以 及 协 方差 均衡 运算 的 图 示 


另 一 个 有 趣 的 现象 是 当 通 过 图 4. 11 的 方式 对 输入 进行 变换 ， 并 将 之 和 图 4. 10 Bray A H 
正切 函数 结合 起 来 时 ， 多 层 感知 器 中 各 个 神经 元 的 输出 的 方差 接近 于 1COrr and Muller, 
1998) 。 这 一 声明 的 基本 原理 在 于 在 有 用 范围 内 有 效 获 得 的 sigmoid 函数 是 大 体 上 为 1 的 。 

6. 初始 化 。 网 络 的 突 触 权 值 和 韶 值 初 值 的 一 个 较 好 的 选择 对 一 个 成 功 的 网 络 设计 会 有 已 
大 帮助 。 关 键 问题 是 : 什么 是 好 的 选择 ? 
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当 突 触 权 值 被 赋予 一 个 较 大 的 初始 值 时 ， 网 络 的 神经 元 很 可 能 会 趋 于 饱和 。 如 果 发 生 这 种 
情况 ， 反 向 传播 算法 中 的 局 域 梯度 呈现 出 一 个 很 小 的 值 ， 结 果 导 致 反 向 传播 学 习 过 程 很 缓慢 。 
然而 ， 如 果 突 触 权 值 被 赋予 一 个 较 小 的 初始 值 ， 反 向 传播 算法 可 能 就 在 误差 曲面 的 原点 的 一 个 
非常 平缓 的 区 域内 进行 ;特别 对 于 如 双 曲 正切 函数 这 样 的 sigmoid 函数 时 ， 这 种 可 能 性 就 更 
大 。 不 幸 的 是 ， 原 点 是 一 个 鞍点 ， 这 个 鞍点 是 一 个 稳定 点 ， 在 该 点 处 与 鞍 正 交 的 误差 曲面 的 曲 
率 为 负 ， 而 沿 着 鞍 方 向 为 正 。 由 于 这 些 原因 ， 使 用 过 大 或 过 小 值 初始 化 突 触 权 值 都 应 该 避免。 
恰当 的 初始 化 选择 位 于 这 两 种 极端 之 间 。 

具体 地 说 ， 考 虑 将 一 个 双 曲 正切 函数 作为 激活 函数 的 多 层 感知 器 。 设 网 络 的 每 一 个 神经 元 
的 偏 置 为 0。 我 们 将 神经 元 ; 的 诱导 局 部 域 表示 为 


UV; = dy wir 
假设 网 络 的 每 一 个 神经 元 的 输入 的 均值 为 0 方差 为 1， 表 示 为 
vy = ELyij= 0 对 所 有 神经 元 i 
和 
o, = EL Cy: — pd? J= ELyij= 1 对 所 有 神经 元 i 
进一步 ， 假 设 输入 值 都 是 不 相关 的 ， 即 
1 对 k= 二 i 


E[ yiye l= 0 #kŁi 
并 且 设 突 触 权 值 的 值 是 以 均值 为 0 的 均匀 分 布 抽 取 的 一 组 数 ， 即 
aw = Elw; ]=0 对 所 有 (7z) 对 

和 方差 

o = EL (ws — pu) J= Elu] 对 所 有 (j,i) 对 
因此 可 以 将 诱导 局 部 域 o 的 均值 和 方差 表示 为 

fly 一 Elv; J= E[ 2 wsv: |= 2 El wj JELy: 1= 0 
和 
& =EL Cy — m) J= ELH I=EL 之， Dy uyway A |= Dy 2 Elwes JEL yn J= 2, EL wh J= moi 
这 里 m 是 一 个 神经 元 的 突 触 连 接 的 数目 。 

根据 上 述 结果 ， 我 们 可 以 得 到 一 个 如 何 初始 化 罕 触 权 值 的 一 个 好 策略 ， 使 得 神经 元 诱导 局 
部 域 的 标准 偏差 位 于 它 的 sigmoid 激活 函数 的 线性 部 分 和 饱和 部 分 的 过 渡 区 域 。 例 如 ， 如 图 
4. 10 所 示 的 参数 a Hb 所 设 值 的 双 曲 正切 函数 ， 当 上 式 中 的 o, 二 1 时 可 以 满足 这 个 目标 ， 这 样 
得 到 (LeCun, 1993): 

a, =m? (4. 48) 
因此 ， 对 于 一 个 均匀 分 布 ， 它 需要 其 均值 为 0 而 方差 将 与 神经 元 的 突 触 连接 的 数目 成 反比 ， 从 
而 以 这 个 分 布 来 选择 突 触 权 值 的 值 。 

7, 从 提示 中 学 习 。 从 一 组 未 知 的 训练 例子 中 学 习 意 味 着 处 理 未 知 的 输入 一 输出 映射 函数 
f(.)。 事 实 上 ， 学 习 过 程 利用 函数 f(*) 例 子 所 包含 的 信息 来 推断 它 的 逼近 实现 。 从 例子 中 符 习 
的 过 程 可 以 推广 为 包括 从 提示 中 学 习 ， 这 可 以 通过 在 学 习 过 程 中 加 入 函数 f(*) 的 先 验 知识 来 
实现 (Abu-Mostafa，1995)。 这 些 知识 包括 不 变性 、 对 称 性 或 关于 函数 (OMAR, E 
们 可 以 用 来 加 速 实现 f(*) 的 逼近 的 搜索 ,而 且 更 重要 的 是 , 会 提高 最 后 估计 的 奈 量 。 式 
(4. 48) 的 使 用 就 是 如 何 从 提示 中 学 习 的 例子 。 
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8. 学 习 率 。 多 层 感知 器 的 所 有 神经 元 理论 上 应 以 同一 速率 进行 学 习 。 网 络 最 后 一 层 的 局 
域 梯度 通常 比 别 的 层 大 。 因 此 ， 最 后 一 层 的 学 习 率 参数 了 应 设 得 比 别 的 层 小 。 输 入 较 多 的 神经 
元 的 学 习 率 参数 应 比 输入 较 少 的 神经 元 小 。LeCun(1993) 中 提 到 ， 对 一 个 给 定 的 神经 元 ， 其 
学 习 率 应 与 该 神经 元 的 突 触 连接 的 平方 根 成 反比 。 


4.7 计算 机 实验 : 模式 分 类 


在 本 市 的 计算 机 实验 中 ， 我们 回顾 模式 分 类 实验 的 序列 ， 首 先 在 第 1 章 中 利用 Rosenblatt 
感知 器 ， 然 后 在 第 2 章 中 利用 了 最 小 二 乘法 。 对 上 述 的 两 个 实验 ， 我 们 都 采用 图 1. 8 所 示 的 双 
月 结构 来 随机 产生 训练 和 测试 数据 样本 。 在 上 述 的 每 个 实验 中 ， 我 们 都 考虑 了 两 种 情形 ， 一 种 
是 线性 可 分 模式 ， 另 一 种 是 非 线性 可 分 模式 。 感 知 器 对 于 d=1 时 的 线性 可 分 情形 工作 得 非常 
好 ， 但 是 最 小 二 乘法 需要 在 两 个 月 亮 之 间 更 大 的 分 耻 度 以 便 得 到 好 的 分 类 。 在 两 个 方法 下 ， 他 
们 对 于 d= —4 的 非 线 性 可 分 的 情形 都 失败 了 。 

这 里 的 计算 机 实验 的 目的 包括 两 方面 : 

1. 用 米 说 明 通 过 反 向 传播 算法 训练 的 多 层 感 知 磊 ， 能 够 分 类 非 线 性 可 分 测试 数据 。 

2. 找到 更 困难 的 非 线 性 可 分 的 情形 ， 这 时 候 多 层 感知 器 对 于 双 月 分 类 测试 来 说 失败 了 ， 

实验 中 使 用 的 多 层 感 知 器 的 具体 情况 如 下 所 示 : 

输入 层 大 小 : mo =2 

Mage (LAH) KN: mi 一 20 

输出 层 大 小 : m2 = 1 

激活 函数 ， 双 曲 正切 函数 p(v) =p AP 

HERE: 0 

学 习 率 参数 1: 从 10-! 下 降 到 10- 的 线性 退火 

实验 分 为 两 部 分 ， 一 部 分 相应 于 垂直 可 分 的 dg 一 一 4， 另 一 部 分 相应 于 d= 二 一 5。 

(a) £17 hm d=—4 

图 4.12 是 两 月 之 间 长 度 d=—4 时 候 的 MLP 实验 的 结果 。 图 4. 12a 是 训练 阶段 所 产生 的 
学 习 曲 线 。 我 们 看 到 在 训练 了 大 约 15 个 回合 时 学 习 曲 线 有 效 收敛 。 图 4. 12b 显示 了 MLP 计算 
的 最 优 非 线性 决策 边界 。 更 重要 的 是 ， 实 现 了 这 两 种 模式 的 良好 分 类 ， 没 有 分 类 误差 。 这 一 - 完 


美 性 能 的 实现 应 归 因 于 MLP 的 隐藏 层 。 








0.35 10 
0.3 8 
0.25 : 
wy al 
= 0.2 ; 
0.15 0 
=? : 
0.1 _4 
0.05 6 K 
3 -8 
0 10 20 30 40 50 -10 -5 0 5 10 15 20 
回合 次 数 x, 
a) 学 习 曲 线 b) 测试 结果 


图 4.12 PRR d= 二 一 4 时 反 向 传播 算法 作用 于 MLP 的 计算 机 实验 结果 。MSE 是 指 均 方 误差 
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(b #5 d=—5 

为 了 用 更 加 困难 的 模式 分 类 任务 来 挑战 多 层 感知 器 ， 我 们 在 两 月 之 间 减 少 垂直 可 分 性 ， 令 
d 王 一 5。 实 验 第 二 部 分 的 结果 如 图 4. 13 所 示 。 反 向 传播 算法 的 学 习 曲 线 在 图 a 部 分 画 出 ， 说 
明了 较 慢 的 收 合 速度 ， 大 概 是 容易 情形 d=—4 的 三 倍 左右 。 而 且 ， 在 图 b 部 分 所 给 出 的 测试 
结果 揭示 了 在 2 000 个 数据 点 组 成 的 测试 集中 有 三 个 分 类 错误 ， 表示 了 0. 15% 的 误差 率 。 

决策 边界 是 通过 寻找 属于 输入 向 量 x 的 坐标 z 和 zs 来 计算 的 ， 对 于 它 来 说 ， 在 实验 的 两 
个 类 是 等 可 能 的 假设 下 ， 输 出 神经 元 的 响应 是 0。 相 应 地 ， 当 超过 阔 值 0 时 ， 做 出 它 属 于 某 个 
类 的 决策 ; 反之 ， 给 出 决策 属于 另 一 个 类 。 这 一 过 程 在 本 书 中 报告 的 所 有 关于 双 月 分 类 实验 的 
报告 中 都 将 继续 。 


学 习 曲 线 在 距离 =-5， 半 径 =10， 宽 =6 时 利用 MLP 分 类 
0.45 
0.4 


0.35 


MSE 
x 





0 10 20 30 40 50 
回合 次 数 x 
a) 学 习 曲 线 b) 测试 结果 


图 4.13 FRB 4 二 一 5 时 反 向 传播 算法 作用 于 MLP 的 计算 机 实验 结果 


4.8 反 向 传播 和 微分 


反 向 传播 是 用 于 在 多 层 前 馈 网 络 的 权 值 空间 中 实现 梯度 下 降 的 一 种 特殊 技巧 。 其 基本 思想 
是 有 效 计 算 一 个 近似 函数 FCw,x) 的 偏 导数 ， 对 于 给 
定 输入 向 量 x 的 值 近 似 函 数 FC(w,x) 由 网 络 根 据 可 调 
整 权 值 向 量 w 的 所 有 元 素 实现 。 这 一 点 决定 了 反 向 传 
播 算法 的 计算 能 力 。 

具体 来 说 ， 假 定 一 个 多 层 感 知 器 有 一 个 m 个 市 
点 的 输入 层 ， 两 个 隐藏 层 ， 以 及 一 个 单一 的 输出 神经 
元 ， 如 图 4.14 所 示 。 权 值 向 量 w 的 元 素 根 据 层 数 
(从 第 一 个 隐藏 层 开 始 )， 然 后 根据 层 内 的 神经 元 ， 最 
后 根据 神经 元 中 突 触 的 数目 来 排序 。 令 wi 表示 从 神 输入 层 





经 元 i BLL 一 0,1,2,… 中 的 神经 元 7 的 突 触 权 值 。 aiii ous 
对 于 ! 一 1， 对 应 于 第 一 个 隐藏 层 ， 序 号 表示 一 个 源 HAM ART RR TH 


— 的 多 层 感 知 器 
结 点 而 不 是 一 个 神经 元 ; 对 于 /二 3， 对 应 于 图 4. 14 


的 输出 层 ， 我 们 有 7 一 1。 对 于 一 个 特定 的 输入 向 量 x = [zi ,zs，… ,xzm,]”， 我 们 希望 计算 函数 
Fw. x) Ht w 的 所 有 元 素 的 导数 值 。 将 权 值 向 量 w 作为 函数 下 的 变量 ， 并 将 注意 力 放 在 其 
上 。 例如 ， 对 于 /二 2( 即 一 个 单一 隐藏 层 和 一 个 线性 输出 层 )， 我 们 有 : 
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F(w,x) = Dwsyp( > wx) (4. 49) 
其 中 w 是 排序 后 的 权 值 向 量 ，x 是 输入 向 量 。 
图 4. 14 的 多 层 感 知 器 被 结构 x( 表 示 一 个 离散 参数 ) 和 一 个 权 值 向 量 w( 由 连续 的 元 素 组 
成 ) 参数 化 。 令 ”表示 从 输入 层 C=0) 到 层 1 = 1,2,3 内 的 节点 7 所 扩展 成 的 部 分 结构 。 因 
此 ,我 们 可 以 写成 : 
F(w,x) = of)” ) (4. 50) 
这 里 p 是 激活 函数 。 然 而 ， 邓 ”仅仅 被 认为 是 一 个 结构 符号 而 不 是 一 个 变量 ， 因 此 ， 改 写 式 
(4.2)、 式 (4.4)、 式 (4.13) 和 式 (4. 25) 使 之 在 这 种 情况 下 可 用 ， 得 到 如 下 结果 : 





on e p (sa? ) p(s,” ) (4.51) 

lk 

ae = gp (Ai? Jg (AP (i? Dw? (4,92) 
kj 

a = p (AP p CA rE jw yp’ wh ] (4. 53) 
ji : 


这 里 gp 是 非 线性 wp 关于 其 输入 的 偏 导 数 ，z; 是 输入 向 量 z 的 第 i 个 元 素 。 用 相似 的 方法 可 以 得 
到 一 般 的 具有 更 多 的 隐藏 屋 和 在 输出 层 上 有 更 多 神经 元 的 网 络 的 偏 导 等 式 。 | 

对 于 计算 网 络 函 数 FC(w,x) 关 于 权 值 向 量 w 的 元 素 变 化 的 灵敏 度 ， 式 (4. 51) 至 式 (4. 53) 提 
供 了 基础 。 令 w 表示 权 值 向 量 wR, Fw ORTF o 的 灵敏 度 定 义 为 


”w/w 
由 于 这 个 原因 我 们 把 图 4.7 中 信和 号 流 图 的 较 低 部 分 称 为 “灵敏 度 图 ”。 


Jacobi 4 pE 

令 W 表示 一 个 多 层 感 知 器 目 由 参数 〈 即 突 触 权 值 和 偏 置 ) 的 总 数 ， 参 数 按 形 成 权 值 向 量 
w 的 方式 排序 。 令 N 表示 用 于 训练 网 络 的 样本 总 数 。 对 于 训练 集中 的 给 定 样 本 x(n), AAR 
向 传播 可 以 计算 近似 函数 FLw,x(n) 对 权 值 向 量 w 元 素 的 偏 导数 。 对 于 n 二 1,2,…,NN 重复 上 
述 计 算 ， 最 后 得 到 一 个 NXW 的 人 篇 导数 算 阵 。 这 个 矩阵 被 称 为 多 层 感 知 邦 的 在 x(n) XbA Jaco- 
bi ARE J. Jacobi 矩阵 每 列 对 应 于 训练 集中 的 一 个 样本 。 

实验 证 据 显 示 许 多 神经 网 络 训练 问题 是 内 在 “ 坏 条 件 的 ”(ill conditioned) ， 导 致 Jacobi 4% 
阵 了 几乎 总 是 秩 亏 损 的 〈Saarinen 等 ，1991)。 和 矩阵 的 秩 是 和 矩阵 的 列 或 行 的 线性 无 关 组 的 数目 
中 最 小 的 一 个 。 假 如 秩 小 于 minCN，W)， 我 们 说 Jacobi HRI BRAN. Æ Jacobi 矩阵 中 
任何 的 秩 亏 损 导 致 反 回 传播 算法 仅仅 得 到 可 能 搜寻 方 问 上 的 部 分 信息 ， 从 而 导致 训练 时 间 
过 长 。 


4.9 Hessian 矩阵 及 其 在 在 线 学 习 中 的 规则 


AR GY RR Eo CW) AY Hessian 矩阵 用 HRR, ENH Ea WREE w 的 二 阶 导 数 ， 显 

DRA 
Oo Ear Cw) 

= ea (4. 54) 
Hessian 矩阵 在 研究 神经 网 络 中 起 着 重要 作用 ;尤其 要 提出 以 下 几 点 ”: 

1. Hessian 矩阵 的 特征 值 对 反 回 传播 学 习 动 力学 有 着 深远 的 影 啊 ; 

2. Hessian 和 抢 阵 的 道 为 从 一 个 多 层 感 知 器 中 修剪 〈 即 删除 ) 不 重要 的 突 触 权 值 提供 基础 ， 
这 一 问题 将 在 4. 14 节 中 讨论 ; 


H 
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3. Hessian 矩阵 是 形成 二 阶 优化 方法 的 基础 ， 二 阶 优化 方法 可 作为 反问 传播 学 习 的 蔡 代 ， 
这 将 在 4.16 Wie. 

本 节 将 注意 力 放 在 第 1 点 。 

第 3 章 说 明了 Hessian 矩阵 的 特征 结构 对 LMS 算法 的 收敛 性 质 有 重大 影响 。 它 对 反 回 传 
播 算 法 也 一 样 ， 但 是 更 为 复杂 。 一 般 情况 下 ， 用 反 向 传播 算法 来 训练 的 多 层 感 知 器 ， 其 误差 昌 
面 的 Hessian 矩阵 有 如 下 的 特征 值 组 合 (LeCun 等 ，1998) : 

。 小 特征 值 的 数目 较 少 。 

。 中 等 大 小 的 特征 值 的 数目 很 多 。 

。 大 特征 值 的 数目 较 少 。 

因此 Hessian 矩阵 的 特征 值 伸展 范围 较 广 。 

影响 特征 值 组 合 的 因素 可 分 组 如 下 : 

。 非 零 均值 的 输入 信号 或 非 零 均值 的 神经 元 诱导 输出 信和 号。 

。 输入 信号 向 量 的 元 素 之 闻 的 相关 性 和 神经 元 诱导 输出 信号 之 间 的 相关 性 。 

。 代价 函数 对 于 网 络 中 神经 元 突 触 权 值 的 二 阶 导数 随 着 从 一 层 到 下 一 层 进行 处 理 有 很 宽 

的 变化 范围 。 在 较 低 的 层 中 二 阶 导数 通常 更 小 ， 这 样 突 触 权 值 在 第 一 隐藏 层 的 学 习 很 
慢 ， 但 在 后 面 的 层 就 学 习 较 快 。 

避免 非 0 均值 输入 

回顾 一 下 第 3 章 ， 我 们 讲 过 LMS 算法 的 学 习 时 间 对 条 件数 Am /hmin 的 变化 很 灵敏 ， 这 蛙 
.是 Hessian 矩阵 最 大 的 特征 值 ， 而 hu 是 Hessian 矩阵 最 小 的 非 0 特征 信 。 实 验 结果 显示 反 
向 传播 算法 有 着 相似 的 结果 ， 反 向 传播 算法 是 LMS 算法 的 一 个 推广 。 对 于 非 零 均 值 的 输入 ， 
它 的 比值 /ss 比 相应 的 零 均 值 输入 的 比值 要 大 : 输入 的 均值 越 大 ， 比 值 Amax/Amn BRAK. X 
个 结果 对 反 向 传播 学 习 动 力学 有 着 重要 意义 。 

为 了 使 学 习 时 间 最 小 化 ， 应 避免 使 用 非 零 均值 的 输入 。 现在， 考虑 将 单个 向 量 x 应 用 于 
一 个 多 层 感 知 器 的 第 一 隐藏 层 的 神经 元 这 种 情况 ，x 应 用 于 网 络 之 前 先 对 它 的 每 个 元 素 减 去 
平均 值 是 很 容易 的 。 但 是 将 信和 号 应 用 到 剩 下 的 隐藏 层 和 输出 层 中 的 神经 元 情况 又 会 如 何 呢 ? 
这 个 问题 的 答案 在 于 网 络 中 使 用 的 激活 函数 的 类 型 。 在 采用 logistic 函数 的 情形 下 ， 每 个 神 
经 元 的 输出 界 于 [0,1] 区 间 。 这 样 的 选择 为 那些 位 于 网 络 中 第 一 隐藏 层 之 后 的 神经 元 带 来 
了 一 个 系统 偏差 源 。 为 了 克服 这 一 问题 ,我 们 需要 利用 一 个 如 同 双 曲 正切 函数 的 奇 对 称 放 
数 。 对 于 后 一 种 选择 ， 每 个 神经 元 的 输出 可 以 是 区 间 [一 1,1] 中 的 任何 正 值 和 负 值 ， 在 这 
种 情况 下 ， 它 的 均值 可 能 为 0。 假如 网 络 连 接 数 很 大 ， 用 奇 对 称 激活 函数 的 反 向 传播 学 习 可 
能 比 一 个 使 用 非 对 称 激活 函数 的 相似 过 程 有 着 更 快 的 收敛 。 这 为 4. 6 节 描 述 的 启发 3 提供 了 
合理 性 依据 。 
在 线 学 习 的 渐进 行为 

为 了 和 更 好 地 理解 在 线 学 习 ， 我 们 需要 知道 总 体 -平均 学 习 曲 线 是 如 何 随 着 时 间 演 化 的 。 和 和 
LMS 算法 不 同 ， 很 遗憾 这 样 的 计算 是 很 难 实现 的 。 一 般 来 说 ， 因 为 网 络 的 对 称 性 误差 性 能 曲 
面 可 能 有 以 指数 方式 存在 的 多 个 局 部 最 小 点 和 若干 全 局 最 小 点 。 令 人 惊讶 的 是 ， 误 差 性 能 曲面 
的 这 一 特性 可 能 反 过 来 从 以 下 意义 上 说 是 有 用 的 特征 : 假设 在 网 络 训练 中 采用 了 早期 停止 方法 
(参照 4. 13 节 ) 或 者 网 络 是 正则 的 (参照 4. 14 节 )， 我 们 几乎 总 是 发 现 我 们 “靠近 局 部 最 
小 点 。 

在 很 多 情况 下 ， 由 于 误差 性 能 曲面 的 复杂 性 ， 我 们 从 文献 中 发 现 ， 学 习 曲 线 的 统计 分 析 限 
定 在 局 部 最 小 点 邻 域 的 渐进 行为 上 。 这 里 重点 介绍 这 一 渐进 行为 的 几 个 重要 方面 如 下 ， 假设 学 
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习 率 参数 是 固定 的 : 

D 学 习 曲 线 包 含 三 项 ， 

。 RODAR, RREK w 决定 ， 它 属于 局 部 或 全 局 最 小 点 。 

© 附加 损失 ， 由 权 值 向 量 估计 w(n) 在 均值 附近 的 波动 引起 : 

lim ELW(n) ] = w' 

。 时 间 依 赖 项 ， 描 述 算 法 性 能 的 误差 收敛 降 速效 应 。 

(2) 为 了 保证 在 线 学 习 算 法 的 稳定 性 ， 学 习 率 参数 了 必须 被 赋予 一 个 小 于 Hessian 和 矩阵 最 
大 特征 值 倒数 1/4w: 的 值 。 男 一 方面 ， 算 法 的 收敛 速度 是 由 Hessian 矩阵 的 最 小 特征 值 lu 来 
SAC HY 

(3) 粗略 地 说 ， 如 果 学 习 率 参 数 了 BURP TAKE, AORN, GRA RRA 
全 局 最 小 点 附近 会 有 大 的 波动 ， 其 至 办 代 次 数 n 趋 于 无 穷 大 时 也 是 如 此 。 相 反 ， 如 采 7 赋予 小 
的 值 ， 波 动 程度 会 变 小 ， 但 收敛 速度 也 会 变 慢 。 


4.10 ”学习 率 的 最 优 退 火 和 上 自 适 应 控制 


在 4. 2 节 中 ， 我们 强调 了 在 线 学 习 的 流行 有 两 个 原因 : 

(1) 算法 简单 ， 甚 执行 只 需要 极 少 量 的 存储 ， 存 储量 仅仅 用 来 存放 从 一 次 迭代 到 下 一 次 和 迭 
代 估 计 权 值 向 量 的 旧 值 。 

(2) 在 每 一 个 时 间 步 每 一 个 样本 {x,d) 仅仅 使 用 一 次 ， 在 线 学 习 的 学 习 率 比 批量 学 习 的 
学 习 率 有 着 更 加 重要 的 作用 ， 因 为 在 线 学 习 算 法 具有 追踪 用 来 产生 训练 集 样 本 的 环境 的 统计 变 
化 的 内 在 能 力 。 

Amari(1967) 和 最 近 的 Opper(1996) 中 证 明了 具有 最 优 退 火 的 在 线 学 习 能 够 在 渐进 意义 
下 和 批量 学 习 运 行 得 一 样 快 。 下 面 的 内 容 探 讨 了 这 一 问题 。 
学 习 素 的 最 优 退 火 

A w 记 为 网 络 的 突 触 权 值 向 量 ， 在 某 种 排序 方式 下 堆 玖 。w(z) 记 为 权 值 向量 w 在 时 间 步 
n 的 老 的 估计 ， 邻 多 (2 十 1) 记 为 在 接收 到 “输入 -期 望 ” 样 本 (x(nt)).dixt Dia w 的 更 新 佑 
计 。 相 应 地 ， 令 了 Cx(Cz 十 1); 交 (2) 记 为 网 络 对 于 输入 xCaz 十 1) 所 产生 的 向 量 值 输出 ; 目 然 地 ， 
函数 下 的 维 数 必须 与 期 望 响 应 向 量 dCz) 相 同 。 根 据 式 (4. 3) 的 定义 公式 ， 可 以 将 瞬时 能 量 表示 
为 估计 误差 的 平方 欧 几 里 得 范 数 ， 如 下 式 所 示 : 


(x(n) ,d(n) sw) = > | d(2) — F(x(n);w) |l? (4,55) 
在 线 学 习 问 题 的 均 方 误差 或 期 望 风险 定义 为 : 
J Cw) = Eal Bx,d;w) | (4. 56) 
HE p PEA REA {x,d) 上 的 期 望 算 子 。 解 
w" = arg min[ J (w)] (4.57) 
定义 了 最 优 参 数 向 量 。 
学 习 过 程 的 瞬时 梯度 向 量 定 义 为 : 


g(x(n),d(m)3;w) = 2 gal) ,dn) ;w) =— (dln) — F(x(n) sw) F (xln);w) (4.58) 


其 中 
F (x;w) = — F(x:w) (4. 59) 
Ow 


有 了 刚刚 定义 的 梯度 向 量 ， 现 在 可 以 将 在 线 学 习 算 法 表示 为 : 
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Win+1) = Cn) — ym g(x(n 十 1)，d(2 +1); W(n)) (4. 60) 
或 者 等 价 地 ， 
Wan tl) = Wa) 十 Kn) (daa +1) Ean DW)]F AnD; (4.61) 
A oes A 
更 新 估计 ” 老 的 FAR 误差 信号 网络 函数 了 的 篇 导数 
估计 参数 


有 了 这 个 差分 方程 ， 我 们 可 以 继续 通过 如 下 的 连续 微分 方程 来 描述 权 值 同 量 w 在 最 优 参数 
w" 的 邻 域 的 总 体 -平均 动力 学 ， 





E RO =~ ft) Eval g(x) dC) 5 9(2))] (4. 62) 
其 中 上 表示 连续 时 间 。 根 据 Murata(1998) ， 梯 度 向 量 的 期 望 值 通过 下 式 来 近似 : 
Fxalg(x.d;w(e)) ] &— K* (w* — RCE) (4. 63) 
其 中 总 体 平均 和 矩阵 K 定义 为 : 
Ə es ə l 
K* = Exe] gCxs dsw) | 一 eal -2 (xsd) | (4. 64) 


新 的 Hessian 矩阵 K* 是 一 个 正定 矩阵 ， 和 式 (4. 54) 定 义 的 Hessian 矩阵 H 是 不 同 的 。 然 而 ， 
如 果 产 生 训 练 样本 {x,d} 的 环境 是 遍历 的 ， 则 可 以 用 基于 时 间 平 均 的 Hessian ERE H REN 
基于 总 体 平均 的 Hessian 矩阵 K* 。 在 任何 情况 下 ,将 式 (4. 63) 代 入 式 (4. 62), 我们 发 现 描述 
估计 W(z) 演 化 的 连续 微分 方程 可 以 通过 下 式 晕 近 : 


FWD) ~ OK Ow — WO) (4. 65) 
今 向 量 q 表示 K* 矩阵 的 特征 向 量 ， 如 下 面 的 定义 公式 所 未 : 
K"q = Aq (4. 66) 
其 中 4 是 对 应 于 特征 向 量 q MRI. WAU SlA Bey ee 
ECD = Exel q? (xd; ÑG) | (4. 67) 
由 式 (4. 63) ， 这 可 以 近似 表示 为 
E(t) ~— q’K* (w* — W(t)) =— Aq’ (w* — W(t)) (4. 68) 


在 每 一 个 瞬时 +:， 函 数 &(1) 为 一 个 标量 值 ， 这 可 以 看 成 是 两 个 于 特征 向 量 q 上 的 投影 之 间 的 欧 
几 里 得 距离 的 近似 测量 ， 一 个 是 最 优 参数 w, BTE. HAARAA w 时 ， 
#(t) 的 值 减 为 0。 | 

由 式 (4.65)、 式 (4. 66) 和 式 (4.68)， 我 们 发 现 函 数 0 5ER ARERIA 7 
AX: 


del 一 一 
qe? =— Ang QE) (4. 69) 
解 该 微分 方程 产生 : 
EG) = c exp(— afgaat) (4. 70) 
其 中 < 是 正 的 积分 常数 。 


根据 Darken and Moody(1991) 的 退火 方案 ， 这 已 经 在 第 3 章 中 关于 LMS 算法 时 讨论 过 
JT, Fax 


gh) = (4.71) 


T 
t+ 
说 明 学 习 率 对 时 间 上 的 依赖 性 ， 其 中 + 和 为 正 的 调谐 参数 。 然 后 ， 将 这 一 公式 代入 式 
(4.70) ， 我 们 发 现 相 应 的 EO 函数 为 ; 

EG) = elt + r) (4, 72) 
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为 了 使 当时 间 上 趋 于 无 穷 时 9 成 为 0， 指 数 部 分 的 乘积 项 Mr 必须 大 于 1， 这 可 以 通过 对 正 的 
a 令 Ho 二 a/4 来 满足 。 

现在 ， 仅 剩 的 问题 是 如 何 选 取 特 征 同 量 g。 前 一 节 讲 过 ， 学 习 曲 线 的 收敛 速度 由 Hessian 矩阵 H 
的 最 小 特征 值 hu 支配。 由 于 Hessian 矩阵 和 新 的 Hessian 和 矩阵 H’ 倾向 于 相似 的 行为 ， 一 个 聪明 的 
选择 是 假设 对 于 充分 大 的 和 迭代 数 ， 估 计 器 wGo 关 于 时 间 上 的 演化 可 以 考虑 为 一 维 过 程 ， 对 于 和 最 小 
特征 值 Mm 相 关联 的 Hessian RE K* “几乎 平行 ”地 运行 ， 如 图 4 15 所 示 。 因 此 可 以 令 : 


(Ex. al g(x, d; sw) | 
haa er TCR OTE et) 
其 中 引信 了 正规 化 来 假设 特征 问 量 q 为 单位 欧 见 星 得 长 度 。 相 应 地 ， 式 (4. 67) 的 运用 产生 了 
(4) = || Exe[g(x,d;wz)) ] | (4. 74) 


现在 可 以 把 本 节 讨 论 过 的 结果 总 结 如 下 : 
1. 由 式 (4.71) 所 描述 的 退火 方案 的 选择 满足 两 个 条 件 、: 


Sig) > co) 和 SPa) > oO, Ht oo (4. 75) 


换 句 话说 ， n(t) 满 足 随机 逼近 理 论 (Robbins and Monro, 1951) WFE, 
2. 在 时 间 zt AFI, PR &() 渐 进 地 趋 于 0。 相 应 于 式 (4. 68)， 紧 接着 有 上 趋 于 无 穷 
时 估计 器 %(b 芒 趋 于 最 优 估 计 Ww". 
3. 在 足够 大 量 的 迭代 次 数 之 后 ， 估计 器 W(z) 的 总 体 平均 雪线 几乎 平行 于 和 最 小 特征 值 4 
相关 联 的 Hessian 矩阵 K” 的 特征 向 量 。 
4. 由 权重 向 量 多 刻画 的 网 络 的 最 优 退 火 在 线 学 习 算法 可 以 通过 下 面 的 三 个 公式 来 共同 描述 
wiat) = wa) + Km (dit D — Fad + 1;Win)) F xn 1) ;Wn)) 


更 新 估计 老 的 学 习 率 误差 信号 网 络 函 数 F 的 偏 导数 
估计 参数 


M switch (4. 76) 





ce ce 

这 里 ， 假 设 产生 训练 样本 {x,d) 的 相应 的 环境 是 遍历 的 ， 因 此 假设 总 体 平均 Hessian 矩阵 K* 
和 时 间 平 均 Hessian 2% H 同样 的 值 。 

5. 当 基于 随机 梯度 下 降 的 在 线 学 习 中 的 学 习 率 参数 p 固定 时 ,算法 的 稳定 性 需要 我 们 选 
FE p <ln PEP Ma 是 Hessian 矩阵 H 的 最 大 特征 值 ， 在 最 优 退 火 随机 梯度 下 降 的 情形 下 ， 
相应 于 式 (4. 76) 的 第 三 行 ， 选 择 是 p< l/min HP Amine H 的 最 小 特征 值 。 

6. 时 间 常 数 nswisa 是 一 个 正 整 数 ， 定 义 了 从 固定 的 mw 状态 转换 为 退火 状态 ， 其 中 时 间 变 化 
学 习 率 参数 on) ARAM BER c/n, Htc 是 常数 ， 对 应 于 随机 逼近 理论 ， 


Wt) BR 
<a > 


图 4.15 MEAO e EA. MARRIT w 的 变化 值 的 期 望 风 险 的 轮廓 ， 假 设 为 二 维 的 
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学 习 率 的 目送 应 控制 


式 (4.76) 的 第 二 行 所 描述 的 最 优 退 火 方案 提供 了 在 线 学 习 ， 为 促进 在 线 学 习 的 应 用 迈 出 了 
重要 一 步 。 然 而 ， 这 一 退火 方案 的 实际 局 限 在 于 需要 知道 的 时 间 常 量 goin SSN. BIRD 
实际 问题 ， 事 实 上 ， 当 在 不 稳定 的 环境 中 建立 在 线 学 习 感 兴趣 的 应 用 时 ， 训 练 序列 的 统计 性 质 
从 一 个 样 例 到 下 一 个 样 例会 发 生 改 变 ， 利 用 一 个 预先 给 定 的 时 间 常 量 wine AY BE BS FE FE AeA 
实 的 选择 。 这 一 类 情形 在 实际 中 经 常 发 生 ， 因 而 在 线 学 习 算 法 需要 装备 内 在 机 制 用 于 学 习 率 的 
自 适 应 控制 。 这 样 的 机 制 在 文献 中 由 Murata(1998) 首次 提出 ， 那 里 对 称 为 学 习 算 法 的 学 习 
(Sompolinsky 等 ，1995) 作 了 适当 修正 。 

Murata 的 自 适应 算法 被 配置 来 达到 两 个 目的 : 

1. 自动 调整 学 习 率 ， 用 来 处 理 产生 训练 序列 样 例 的 环境 的 统计 特性 有 变化 的 情形 。 

2. 在 线 学 习 算 法 的 远 化 ， 通 过 避免 预定 义 代 价 函 数 的 需要 使 其 适用 性 更 三 。 

具体 来 说 ， 由 式 (4. 62) 定 义 的 权 值 向 量 w 的 总 体 - 平 均 动 力学 ， 现 在 可 以 写 为 


Lt) 一 一 XD Ena LF) 2) HOD) (4.77) 


这 里 向 量 值 函 数 fe. es 定义 了 决定 作用 于 估计 W(z) 相应 于 进入 样 例 {x(2) ,d(t)} 上 的 变化 
的 流程 (flow)。 流 程 f 需 要 满足 条 件 
I Exa[f(x,d;w*) |] =0 (4. 78) 
How 是 权 值 向 量 w 的 最 优 值 ， 如 前 面 式 (4. 57) 所 定义 。 换 句 话 说 ， 流 程 f OMe 
于 通过 时 间 t 的 最 优 参 数 w* 。 而 且 ， 在 稳定 性 方面 ， 我 们 也 需要 了 的 梯度 为 正定 和 矩阵。 流程 f 
BETA. 62) 的 梯度 向 量 g 作为 一 个 特例 。 
前 面 从 式 (4. 63) 到 式 (4. 69) 所 定义 的 公式 可 以 很 好 地 等 价 应 用 于 Murata 的 算法 中 。 然 而 
在 此 之 后 ， 所 做 的 假设 是 学 习 率 yO A ; 的 演化 由 如 下 的 一 对 微分 方程 构成 的 动力 系统 
所 决定 : 


de =— age) (4. 79) 

和 
FIO = an(t) BEG) — q) ) (4. 80) 
这 里 需要 注意 的 是 ，&(1) 总 是 正 的 ,a 和 有 是 正 的 常数 。 这 一 动态 系统 的 第 一 个 方程 是 式 


(4. 69) 的 重复 。 系 统 的 第 二 个 方程 是 受 相应 的 微分 方程 启发 得 到 的 ， 该 微分 方程 位 于 对 Som- 
polinsky 等 (1995)’ 所 描述 的 学 习 算 法 的 学 习 中 。 

如 前 所 述 ， 式 (4. 79) 中 的 和 是 相应 于 Hessian 矩阵 K" 的 特征 向 量 q 的 特征 值 。 而 且 ， 假 
设 q 被 选择 为 对 应 于 最 小 特征 值 4ws 的 特定 的 特征 向 量 。 这 就 意味 着 总 体 - 平 均 流程 f 以 和 前 面 
如 图 4. 15 所 描述 的 相似 的 方式 收敛 于 最 优 参数 w. RU 79) 和 式 (4. 80) 所 描述 的 动态 系统 的 
渐进 行为 通过 相应 的 方程 对 给 出 : 


C a (4. 81) 


和 
yt) = =. a (4. 82) 
t 


这 里 需要 注意 的 要 点 是 这 一 新 的 动态 系统 展示 了 学 习 率 OMMBBA, We RANA c/t 
的 值 ， 这 对 于 任意 收敛 于 w 的 估计 名 (六 是 最 优 的 ， 如 前 所 讨论 的 那样 。 
根据 上 面 的 讨论 ， 现 在 可 以 正式 地 描述 离散 时 间 下 在 线 学 习 的 Murata 自 适 应 算法 如 下 
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(Murata, 1998; Muller , 1998): 


Win + 1) = Cn) — n(n) fiCx(n + 1),d(n + 13 W(n)) (4. 83) 
rn +1) = rlan) + éf€x(n4+1),.d(2+1);wM)), O<é<l (4. 84) 
gin + 1) = n(n) + an nr) (8 lr(n-+1) {| 一 n(n) ) (4. 85) 


以 下 是 这 一 离散 时 间 系 统 方程 中 值得 注意 的 点 : 
© 式 (4. 83) 是 简单 的 式 (4. 77) 的 微分 方程 的 瞬时 离散 时 间 版 本 。 
。 式 (4. 84) 包 含 了 辅助 向 量 (nm), RBS] AK LAA SET Te] PK OE). MH, Murata 
自 适 应 算法 的 第 二 个 方程 包含 一 个 漏 损 因 子 (leakage factor)， 其 值 8 控 制 了 流程 下 的 
流动 平均 。 

。 式 (4. 85) 是 微分 方程 (4. 80) 的 离散 时 间 版 本 。 式 (4. 85) 中 更 新 的 辅助 回 量 r(n 十 1) 将 

它 和 式 (4. 84) 联 系 起 来 ; 在 这 样 做 的 过 程 中 ， 人 允许 将 式 (4. 79) 和 式 (4. 80) 分 别 定义 的 
连续 时 间 函 数 COA wy(2) 结 合 起 来 。 

与 式 (4. 79) 和 式 (4. 80) 描 述 的 连续 时 间 动 力 系统 不 同 ， 式 (4. 85) 的 学 习 率 参数 yd) A HE 
行为 在 迭代 次 数 n 趋 于 无 穷 时 不 收敛 于 0， 因此 违反 了 最 优 退 火 的 需要 。 相 应 地 ， 在 最 优 退 火 
参数 w" 的 邻 域 中 ， 我 们 发 现 对 于 Murata 自 适 应 算法 有 : 

lim W(n) 天 w’ (4. 86) 
这 一 渐进 行为 和 式 (4. 76) 的 最 优 退 火 在线 学 习 算 法 是 不 同 的 。 基 本 上 ， 对 于 最 优 退 火 的 背离 是 
归 因 于 式 (4. 77) 中 流程 的 流出 平均 的 应 用 ， 包 含 了 这 一 应 用 是 由 于 需要 处 理 算 法 无 法 预先 定义 
代价 函数 的 情形 ， 正 如 导出 最 优 退火 在 线 学 习 算 法 式 人 4. 76) 的 情形 。 

当 最 优 解 冰 随时 间 ”缓慢 变化 时 〈 即 产生 样 例 的 环境 是 不 稳定 的 ) 或 者 突然 改变 时 ， 学 
习 规 则 的 学 习 是 有 用 的 。 另 一 方面 ，L/ 规则 在 这 样 的 环境 下 不 是 一 个 好 的 选择 ， 因 为 p 对 于 
很 大 的 n 来 说 变 得 很 小 ， 导 致 1/n 规则 失去 其 学 习 能 力 。 基 本 上 ， 式 (4. 76) 的 最 优 退 火 在 线 学 
习 算 法 和 式 (4. 83) 到 式 (4. 85) 的 在 线 学 习 算 法 之 间 的 不 辐 是 ， 后 者 有 一 个 内 在 的 机 制 用 于 是 通 
应 地 控制 学 习 率 一 一 因而 它 能 够 追踪 最 优 解 w 的 变化 。 

最 后 的 评论 是 : 尽管 Murata 自 适 应 算法 在 所 考虑 的 学 习 率 参数 的 退火 范围 内 实际 上 是 次 
优 的 ， 其 重要 的 优点 在 于 扩大 了 在 线 学 习 在 实际 执行 方式 上 的 适用 性 。 


4.11 泛 化 


在 反 向 传播 学 习 中 ， 我 们 一 般 从 一 个 训练 样本 开始 ， 而 且 通 过 向 网 络 中 装载 (编码) 尽 可 
能 多 的 训练 样本 来 使 用 反 向 传播 算法 计算 一 个 多 层 感知 器 的 突 触 权 值 。 希 望 这 样 设计 的 神经 网 
络 可 以 很 好 地 泛 化 (推广 )。 对 于 从 未 在 生成 或 训练 网 络 时 使 用 过 的 测试 数据 ， 知 网 络 计算 的 
输入 -输出 映射 对 它们 来 说 是 正确 〈 或 接近 于 正确 ) 的 ,我们 就 认为 网 络 的 泛 化 是 很 好 的 ; 术 
语 “ 泛 化 ”是 从 心理 学 中 借用 来 的 。 这 里 假定 测试 数据 是 从 用 于 生成 训练 数据 的 相同 数据 集 抽 
取出 来 的 。 

学 习 过 程 ( 即 神经 网 络 的 训练 可 以 看 作 是 一 个 “曲线 拟 合 ” 的 问题 。 网 络 本 身 可 以 被 简 
单 地 认为 是 一 个 非 线 性 输入 -输出 映射 。 这 个 观点 允许 我 们 不 再 把 神经 网 络 的 汉化 看 作 是 它 的 
一 个 神秘 的 特性 ， 而 是 作为 相当 简单 的 关于 输入 数据 非 线 性 插值 的 结果 。 这 种 网 络 之 所 以 能 够 
完成 有 意义 的 捅 值 过 程 ， 主 要 是 因为 具有 连续 激活 函数 的 多 层 感 知 器 导致 输出 函数 同样 也 是 连 
续 的 。 

图 4. 16a 表明 一 个 假定 的 网 络 是 如 何 进行 泛 化 的 。 图 中 描绘 的 曲线 所 代表 的 非 线性 输入 / 
输出 映射 是 由 网 络 通过 对 标 有 “训练 数据 ”的 点 进行 学 习 的 结果 来 计算 的 。 曲 线 上 标 有 “证 
化 ”的 点 就 是 由 这 个 网 络 完成 的 插值 结 采 。 
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a x 训练 数据 点 


x @ ZAE x x 训练 数据 点 


Ny Wa 


aes 


EE a$ 


/ 


~ 通过 训练 学 习 
x 的 非 线性 映射 


输入 0 
a) pa 


Al4.16 a) 民 好 泛 化 的 恰当 拟 合 非 线 性 映射 ; b) 差 的 泛 化 的 过 拟 合 非 线 性 映射 


一 个 具有 良好 泛 化 能 力 的 神经 网 络 ， 即 使 当 输 入 数据 与 训练 样本 稍 有 不 同时 ， 也 能 产生 正 
确 的 输入 -输出 上 映射， 如 图 中 所 示 。 然 而 ， 当 神经 网 络 学 习 太 多 的 输入 -输出 样本 时 ， 它 可 能 会 
完成 训练 数据 的 记忆 。 这 可 能 在 以 下 情况 中 出 现 ， 找 到 一 个 存在 于 训练 数据 中 的 特征 (如 由 于 
噪声 )， 但 对 于 将 要 建 模 的 固有 函数 却 为 假 。 这 种 现象 称 为 “过 拟 合 ”或 者 “过 训练 >?。 当 网 络 
被 过 训练 的 时 候 ， 它 就 失去 了 在 相近 输入 /输出 模式 之 间 进 行 泛 化 的 能 力 。 

通常 ， 用 这 种 方法 把 数据 洲 载 到 多 层 感 知 嚣 要求 使 用 比 实际 需要 更 多 的 隐藏 层 神经 元 ， 结 
果 导 致 在 网 络 的 突 触 权 值 中 存储 了 输入 空间 中 由 于 噪声 引起 的 非 期 望 因素 。 例 如 ， 在 图 4. 16a 
相同 的 数据 条 件 下 ， 图 4. 16b 显示 由 于 神经 网 络 中 的 记忆 导致 泛 化 不 佳 是 如 何 出 现 的 例子 。 
“记忆 ”本 质 上 是 一 个 “查询 表 ”， 这 意味 着 由 神经 网 络 计算 的 输入 /输出 映射 是 非 光 滑 的 。 正 
如 在 Poggio and Girosi(1990a) 文章 中 指出 的 那样 ， 输 入 /输出 映射 的 光滑 性 与 如 Occam 剃刀 
之 类 的 模型 选择 标准 紧密 相关 ， 在 没有 相反 的 先 验 知识 情况 下 ， 它 的 核心 本 质 是 选择 “最 简 
单 ” 消 数 。 针 对 于 我 们 给 出 的 讨论 ， 最 简单 函数 是 指 在 给 定 的 误差 标准 下 带 近 一 个 给 定 映射 的 
湖 数 中 最 光滑 的 肾 数 ， 因 为 这 个 选择 总 体 上 要 求 最 少 的 计算 资源 。 依 赖 于 研究 现象 的 规模 范 
围 ， 光 滑 性 在 许多 应 用 上 同样 是 自然 的 。 因 而 为 不 恰当 的 输入 /输出 关系 寻找 一 个 光滑 的 非 线 
性 映射 是 重要 的 ， 使 得 网 络 能 够 根据 训练 模式 将 新 模式 正确 地 分 类 (Wieland and Leighton, 
1987). 
为 有 效 的 泛 化 给 出 充分 的 训练 集 大 小 

下 面 的 三 个 因素 对 记 化 产生 影响 : Cl) 训练 集 的 大 小 ， 以 及 它 如 何 表示 感 兴趣 的 环境 ; 
(2) 神经 网 络 的 体系 结构 ; (2) 当前 问题 的 物理 复杂 度 。 无 疑 ， 我 们 无 法 对 后 者 进行 控制 。 在 
另外 的 两 个 因素 中 ， 我 们 可 以 从 两 个 不 同 的 方面 考察 泛 化 问题 : 

。 网 络 的 体系 结构 是 固定 的 《可 期 望 与 固有 问题 的 物理 复杂 度 一 致 ) ， 需 要 解决 的 问题 是 

决定 一 个 产生 好 的 泛 化 必需 的 训练 集 的 大 小 。 

。 训练 集 的 大 小 是 固定 的 ， 感 兴趣 的 问题 是 决定 最 好 的 网 络 体 系 结构 使 得 具有 好 的 泛 化 。 

在 它们 各 自 的 方法 里 这 两 种 观点 都 是 合理 的 。 

在 实践 中 ， 看 起 来 对 一 个 好 的 泛 化 而 言 ， 事 实 上 我 们 所 需要 的 全 部 是 训练 集 的 大 小 NA 
足 条 件 





N= o(*) (4. 87) 
这 里 W 是 指 网 络 中 自由 参数 〈 即 突 触 权 值 和 偏 置 ) 的 总 数 ，e 表示 测试 数据 中 容许 分 类 误差 的 
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部 分 (正如 在 模式 分 类 中 一 样 )。OC。) 表 示 所 包含 的 量 的 阶 数 。 例 如 ， 具 有 10% 误差 的 所 需 
训练 样本 数量 应 该 是 网 络 中 自由 参数 数量 的 10 倍 。 

式 (4. 85) 与 用 于 LMS 算法 的 Widrow 经 验方 法 是 一 致 的 ， 后 者 指出 线性 自 适 应 时 间 滤 波 
的 适应 迟 淆 时 间 ， 近 似 等 于 自 适 应 抽 头 延迟 线 滤 波 艇 的 记忆 范围 除 以 误 调节 得 到 的 商 〈 允 id- 
row and Stearns, 1985; Haykin, 2002). LMS 算法 中 的 误 调 节 扮 演 的 角色 与 式 (4. 87) 中 的 误 
差 s 有 某 些 相似 。 这 个 经 验 规则 的 进一步 理由 将 在 下 一 节 中 介绍 。 


4.12 AREE 


一 个 由 反 向 传播 算法 训练 的 多 层 感知 器 可 以 被 看 作 一 个 实现 一 般 性 质 的 非 线性 给 入 -输出 
映射 的 实际 工具 。 具 体 地 讲 ， 令 m 表示 多 层 感 知 器 的 输入 〈 源 ) PADAH., 令 M=m K 
示 网 络 中 输出 层 神经 元 的 数目 。 网 络 的 输入 -输出 关系 定义 一 个 从 m 维 欧 几 里 得 输入 空间 到 
M 维 欧 几 里 得 输出 空间 的 映射 ， 当 激活 函数 是 无 限 连续 可 微 的 时 候 ， 这 个 上 映射 也 是 无 限 连续 
可 微 的 。 在 用 这 种 输入 -输出 映射 观点 来 评价 多 层 感知 器 能 力 的 过 程 中 ， 提 出 了 下 面 基本 的 
问题 : 

一 个 多 层 感 知 器 的 输入 -输出 映射 能 够 提供 任何 一 个 连续 映射 的 近似 实现 ， 它 的 隐藏 层 层 
数 的 最 小 数目 是 多 少 ? 
通用 允 近 定理 

这 个 问题 可 以 用 一 个 非 线 性 输入 -输出 映射 的 通用 允 近 定理 来 回答 ， 该 定理 如 下 : 

令 op(。) 是 一 个 非常 数 的 、 有 界 的 和 单调 增 的 连续 函数 。 令 1a 表示 mo 维 单 位 超 立方 体 
[0, 1]. In 上 连续 函数 空间 用 CU ) 表 示 。 那 么 ， 给 定 任何 函数 FICC, ) fe e>0. 存在 这 
样 的 一 个 整数 m, 和 实 常 数 Ai’ b; 和 Wis 其 中 2 一 l. sm J = 1,°** smo 9 使 我 们 可 以 定义 


Flr,” am ) = Dag (Dwr +4;) (4. 88) 
作为 f(。，) 通 数 的 一 个 近似 实现 ; 也 就 是 说 ， 
| Cai stt sEm ) — fC 21 908 1m, | <E 
对 存在 于 输入 空间 中 的 所 有 ZiyZ2yyZm 均 成 立 。 


通用 逼近 定理 可 直接 用 于 多 层 感知 器 。 我 们 首先 注意 到 在 一 个 作为 多 层 感 知 器 结构 的 神经 
元 模型 中 作为 非 线 性 部 分 的 双 曲 正切 函数 是 一 个 真正 非常 数 的 、 有 界 的 和 单调 递增 的 函数 ; A 
此 它 满足 函数 p(。) 的 上 述 条 件 。 下 一 步 ， 注 意 式 (4. 88) 表 达 如 下 所 述 的 多 层 感知 妖 的 输出 : 

1. 网 络 具 有 m 个 输入 节点 和 单个 由 m 个 神经 元 组 成 的 隐藏 层 ; 输入 由 Zi，… ,zm RAS 

2. 隐藏 神经 元 ? 具有 突 触 权 值 TO ,wm AHAN EE Pi 。 

3. 网 络 的 输出 是 隐藏 层 的 线性 组 合 ， 带 有 定义 输出 层 突 触 权 值 的 ast san, o 

通用 表 近 定理 是 存在 性 定理 ， 它 与 精确 表示 相反 ， 为 任意 连续 随 数 的 将 近 提 供 数学 上 的 基 
础 。 作 为 定理 的 本 质 ， 式 (4. 88) 仅 仅 是 推广 有 限 Fourier 级 数 通 近 。 事 实 上 ， 这 个 定理 说 明 ， 
对 于 多 层 感 知 器 计算 一 个 由 输入 x ，… ,zm 和 期 望 ( 目 标 》 输 出 Sft ,zm) 表示 的 给 定 训 练 
集 的 一 致 。 逼近 来 说 ， 单 个 隐藏 层 是 足够 的 。 然 而 ， 此 定理 并 没有 说 明 单 个 隐藏 层 在 学 习 时 
间 、 实 现 的 难 易 程度 或 者 〈 更 重要 的 ) 泛 化 意义 上 是 最 优 的 。 
i UL TR 2 1 | 

假定 网 络 使 用 sigmoid 函数 的 单 层 隐藏 神经 元 和 线性 输出 神经 元 ，Barron(1993) 建立 了 
多 层 感知 器 的 和 逼近 性 质 。 网 络 通过 使 用 反 向 传播 算法 训练 ， 然 后 用 新 的 数据 测试 。 在 训练 过 程 
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中 ， 网 络 根据 训练 数据 学 习 目 标 函 数 上 中 的 特殊 点 ， 从 而 产生 由 式 (4. 88) 中 定义 的 逼近 函数 
下 。 当 网 络 遇 到 以 前 没有 见 过 的 测试 数据 的 时 候 ， 网 络 也 数 下 就 充当 目标 孙 数 中 新 的 点 的 估计 
a; EI F=f. 
目标 函数 的 光滑 度 属 性 用 它 的 Fourier( 变 换 ) 来 表达 。 特 别 地 ， 用 Fourier 幅度 分 布 加 权 
后 的 频率 向 量 的 范 数 的 平均 值 作 为 函数 f 振 范 的 度量 标准 。 令 / (wm) 表 示 函 数 f(x) 的 多 维 Fou- 
rier 变换 ，xE R”: m。X1 向 量 @ 为 频率 向 量 。 函 数 f(z) 由 关于 它 的 Fourier 变换 函数 Fo) 
的 反 变 换 公 式 定 义 如 下 : 
f(x) = A f (a exp(ja'x)da (4, 89) 


这 里 ;= V 一 1。 对 于 复 值 函数 fm, Heft 是 可 积 的 ， 我 们 定义 函数 f 的 Fourier 幅度 


C=] LF) |x loll do (4. 90) 


He, lol Po MRILESER., |Zo H fio) 的 绝对 值 。 一 阶 绝对 动量 Cr 量化 函数 f 
的 光滑 度 。 ; 

一 阶 绝对 动量 Cy 为 使 用 以 式 (4. 88) 中 输入 -输出 映射 函数 FOO Ae as WY & Joe aR E 
近 f(x 而 导致 的 误差 范围 的 界 提供 了 基础 。 副 近 误 差 可 以 用 与 一 个 半径 7 之 0 的 球体 B= (x? 
| xj <r} 中 任意 可 能 的 概率 测度 y 相关 的 积分 平方 误差 来 衡量 。 在 这 个 基础 上 我 们 可 以 对 
Barron(1993) 提出 的 通 近 误差 范围 的 界 提出 如 下 命题 ， 


对 于 每 个 具有 有 限 一 阶 绝对 动量 Cr 的 连续 函数 f(xX)， 以 及 每 个 mi 之 1， 存 在 一 个 由 式 
(4. 88) 定 义 的 sigmoid 函数 的 线性 组 合 下 (Xx)， 使 得 当 在 严格 属于 球体 内 部 的 输入 向 量 X 的 值 集 
合 {xi) 六 1 上 观察 函数 f(x) 的 时 候 ， 命题 的 结果 对 经 验 风 险 提 供 如 下 的 界 : 
Cr 


Mı 


EN = CFR) — Fa < (4. 91) 


其 中 C= (2rC,)’ o 


在 Barron(1992) 中 ， 利 用 式 (4. 91) 的 有 逼近 结果 表示 使 用 具有 m SAT AA m 个 隐藏 
神经 元 的 多 层 感知 器 而 导致 的 风险 如, (NN) 的 界 如 下 : 


g (N) < o() + O(logN) (4. 92) 


风险 包 ,CN) 的 界 中 的 两 项 表达 了 对 隐藏 层 大 小 的 两 种 矛盾 要 求 的 权衡 : 

1. 最 佳吉 近 的 精确 度 。 为 了 满足 这 个 要 求 ， 根 据 通用 逼近 定理 隐藏 层 的 大 小 m OME 
够 大 ; 

2. 通 近 的 经 验 拟 合 精确 度 。 为 了 满足 第 二 个 要 求 ， 必 须 使 用 一 个 小 的 比值 mAN。 对 于 训 
练 集 的 固定 的 大 小 N， 隐 藏 层 的 大 小 m 应 该 保持 较 小 ， 这 跟 第 一 个 要 求 是 矛盾 的 。 

式 (4. 92) 描 述 的 风险 ,CN) 的 界 具 有 另外 一 个 有 趣 的 含义 。 特 别 地 ， 我 们 看 到 假如 一 阶 绝 
对 动量 Cj 仍 是 有 限 的 话 ， 相 对 于 输入 空间 维 数 m。， 一 个 指数 规模 的 大 样本 集 对 于 得 到 一 个 目 
标 函数 精确 的 估算 并 不 是 必须 的 。 这 个 结果 使 得 多 层 感 知 器 作为 通用 逼近 器 在 实际 条 件 下 英 至 
显得 更 重要 。 

经 验 拟 合 和 最 佳 逼近 之 间 的 误差 可 以 看 作 是 估计 误差 。 令 e 表示 估计 误差 的 均 方 值 。 伏 
后 忽略 式 (4. 92) 中 表达 式 的 第 二 项 的 对 数 因子 logN， 我 们 可 以 推断 出 一 个 好 的 泛 化 所 需 的 训 
练 集 大 小 N 大 约 是 momi/eo。。 这 个 结果 具有 与 经 验 公式 (4. 87) 相 似 的 数学 结构 ， 记 住 mom 等 
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于 网 络 中 自由 参数 W 的 总 数 。 换 句 放 说， 我 们 可 以 从 总 体 上 说 为 了 得 到 好 的 汉化， 训练 样本 
MAAN 应 该 大 于 网 络 中 自由 参数 总 数 和 估计 误差 均 方 值 之 比 。 


维 数 灾难 
出 现在 式 (4. 92) 所 描述 的 界 中 男 一 个 有 趣 的 结果 是 ， 当 对 隐藏 层 的 大 小 通过 设 定 
N 172 
Clean) 


进行 优化 (也 就 是 风险 名 ,CN) 关 于 NN 最 小 化 ) ATR, BUS. CN) OCC; Vm, ClogN/N)) 
限定 。 这 个 结果 的 一 个 令 人 惊奇 的 方面 是 根据 风险 名 , (NN) 的 一 阶 行为 ， 以 训练 集 大 小 NN AB K 
数 表 达 的 收敛 速率 的 阶 为 (1/N)'( 乘 以 一 个 对 数 因 子 )。 另 一 方面 ， 对 传统 的 光滑 也 数 ( 例 
如 多 项 式 和 三 角子 数 ) 我 们 有 不 同 的 行为 。 令 s 表示 光滑 度 的 一 种 度量 ， 定 义 为 函数 具有 连续 
导数 的 阶 数 。 那 么 ， 对 于 传统 光滑 浮 数 ， 我 们 发 现 总 风险 名, CN) 的 极 小 极 大 的 收敛 速率 的 阶 为 
G/N) 2 。 这 个 收 敏 速率 对 输入 空间 维 数 mo 的 依赖 就 是 维 数 灾难 ， 这 严重 地 制约 了 这 些 
函数 的 实际 应 用 。 使 用 多 层 感知 器 进行 函数 逼近 看 起 来 提供 超越 于 传统 光滑 函数 的 优势 ; 但 
是 ， 这 个 优势 受 限于 一 阶 绝对 动量 Cj 保持 有 限 的 条 件 ; 这 是 一 个 光滑 度 约束 。 

Richard Bellman 在 对 自 适 应 控制 过 程 (Bellman，1961〉 的 研究 中 介绍 了 维 数 灾难 。 为 了 
从 几何 上 解释 这 个 概念 ， 令 x 表示 一 个 m 维 的 输入 向 量 ，{(%i ,di)} ,7 二 1,2,…,NN 表示 训练 
样本 。 采 样 密 度 与 NY RIEL. SAA f(x) 代 表 一 个 位 于 m 维 输入 空间 的 曲面 ， 它 近似 通 
过 点 {(xi ,qd;)) 人 站 1!。 现 在 ， 如 果 函 数 f(x) 是 任意 复杂 并 且 〈 对 绝 大 部 分 》 是 完全 未 知 的 ， 我 们 
需要 密集 的 样本 (数据) 来 进行 很 好 的 学 习 。 不 幸 的 是 ， 密 和 集 样本 在 “高 维 ” 中 是 很 难 找到 
的 ， 因 此 产生 了 维 数 灾难 。 特 别 地 ， 维 数 增加 的 结果 导致 复杂 度 呈 指数 增长 ， 从 而 引起 高 维 空 
闻 中 一 致 随机 分 布点 的 空间 填充 性 质 退 化 。 维 数 灾 难 的 基本 原因 如 下 (Friedman, 1995): 

定义 在 高 维 空间 的 函数 很 可 能 远 远 比 定义 在 低 维 空间 上 的 函数 复杂 得 多 ， 并 且 这 些 复 赤 的 
东西 更 难以 区 分 。 

基本 上 ， 仅 有 两 个 途径 可 以 减轻 维 数 灾难 问题 : 

1. 结合 关于 要 通 近 的 未 知 函 数 的 一 些 先 验 知 识 。 这 些 先 验 知识 是 在 训练 数据 之 上 提供 的 。 
自然 ， 这 些 知识 的 获得 是 依赖 于 问题 的 。 例 如 在 模式 分 类 中 可 以 通过 理解 输入 数据 的 相关 的 类 
(种 类 ) 来 获得 知识 。 

2. 设计 网 络 使 之 随 着 输入 维 数 的 增加 而 增加 未 知 函 数 的 光滑 度 。 

可 行 性 考 上 由 

从 理论 的 角度 来 看 ， 通 用 逼近 定理 是 重要 的 ， 因 为 对 具有 单个 隐藏 层 的 前 馈 神 经 网 络 作为 
一 类 逼近 器 的 可 行 性 ， 该 定理 提供 了 必要 的 数学 工具 。 如 果 没 有 这 样 一 个 理论 ， 我 们 可 能 在 育 
目 寻 找 那些 并 不 存在 的 方法 。 然 而 ， 这 个 理论 并 不 是 构造 性 的 ， 即 它 实际 上 并 不 能 具体 实现 如 
何 由 陈述 的 允 近 性 质 决 定 一 个 多 层 感 知 髓 。 

通用 逼近 定理 假设 被 逼近 的 连续 函数 是 给 定 的 并 且 可 用 一 个 神经 元 数目 无 限制 的 隐藏 层 来 
有 逼近。 这 两 个 假设 在 多 层 感知 器 的 绝 大 多 数 实 际 应 用 中 都 是 不 成 立 的 。 

使 用 单个 隐藏 层 的 多 层 感 知 器 的 问题 是 隐藏 层 的 神经 元 倾向 于 全 局 地 相互 作用 。 在 复杂 情 
形 下 这 种 相互 作用 使 得 在 一 点 提高 它 的 通 近 的 同时 又 很 难 不 恶化 它 在 另外 点 上 的 和 逼近。 另 一 方 
面 ， 在 具有 两 个 隐藏 屋 的 情况 下 逼近 〈 曲 线 拟 合 ) 过 程 变 得 更 容易 协调 。 具 体 地 ， 我 们 可 以 进 
行 如 下 处 理 (Funahashi, 1989; Chester, 1990): 

1. 从 第 一 个 隐藏 层 中 抽取 局 部 特征 。 特 别 地 ， 利 用 在 第 一 个 隐藏 层 中 的 一 些 神经 元 将 箱 
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人 至 间 分 割 成 区 域 ， 这 层 中 另外 的 神经 元 学 习 表 征 这 些 区 域 特点 的 局 部 特征 。 

2. 从 第 二 个 隐藏 层 中 抽取 全 局 特征 。 特 别 地 ， 在 第 二 隐藏 层 中 的 一 个 神经 元 组 合 在 输 人 
空间 特定 区 域 操 作 的 第 一 个 隐藏 层 的 各 神经 元 的 输出 ， 从 而 学 习 该 区 域 的 全 局 特征 并 且 在 别处 
的 输出 为 零 。 

Sontag(1992) 为 在 逆 问 题 中 两 个 隐藏 层 的 使 用 提供 了 进一步 理由 。 


4.13 ”交叉 验证 


肥 疝 传播 学习 的 本 质 是 把 输入 /输出 映射 (由 标定 的 一 组 训练 样本 表示 〉 编 码 为 一 个 多 层 
感知 部 的 突 触 权 值 和 国 值 。 我 们 希望 的 是 ， 网 络 通过 良好 的 训练 ， 使 得 它 充 分 地 学 习 过 去 的 数 
据 ， 从 而 对 未 来 有 良好 的 泛 化 能 力 。 从 这 个 观点 来 看 ， 学 习 过 程 意 味 着 对 给 定 的 数据 集合 给 出 
网 络 参数 化 的 一 个 选择 。 有 具体 地 ， 我 们 可 以 把 网 络 选择 问题 看 作 是 从 一 组 候选 模型 结构 ( 参 
BO 集合 中 选择 符合 茶 个 标准 的 “最 好 ”的 一 个 

在 这 种 意义 下 ， 统 计 学 中 一 个 名 为 交 又 验证 的 标准 工具 提供 了 一 个 有 吸引 力 的 指导 原则 ? 
(Stone，1974，1978)。 已 有 的 可 用 数据 集 首先 被 随机 分 割 成 一 个 训练 集 和 一 个 测试 集 。 这 个 
训练 集 被 进一步 细 分 为 两 个 不 相交 子 集 : 

。 估计 子 集 ， 用 来 选择 模型 。 

。 验证 子 集 ， 用 来 测试 或 者 验证 模型 。 

这 里 的 动机 是 用 一 个 与 参数 估计 数据 集 不 同 的 数据 集 来 验证 模型 。 用 这 个 办 法 可 以 用 训练 
集 来 估计 不 同 候选 模型 的 性 能 ， 进 而 选择 “最 好 ”的 一 个 。 然 而 ， 这 样 选 出 的 具有 最 优 表现 的 
参数 值 的 模型 ， 很 可 能 会 导致 对 验证 子 集 的 过 度 拟 合 。 为 了 防止 这 种 情况 出 现 ， 使 用 测试 集 来 
衡量 证 选 模型 的 泛 化 性 能 ， 测 试 集 是 与 验证 子 集 不 同 的 集合 。 

当 我 们 不 得 不 以 设计 一 个 具有 好 的 泛 化 性 能 的 大 型 神经 网 络 作为 目标 的 时 候 ， 交 叉 验证 的 
使 用 是 特别 吸引 人 人 的。 例如 ， 我 们 可 以 使 用 交叉 验证 确定 具有 最 优 隐藏 神经 元 数目 的 多 层 感知 
器 ， 以 及 最 好 在 何 时 停止 它 的 训练 ， 正 如 在 下 面 两 小 节 中 所 述 的 那样 。 


模型 选择 
根据 交叉 验证 选择 模型 的 思想 ， 考 虑 如 下 表示 的 布尔 函数 类 的 戏 人 结构 : 
F C F Cn C F, (4. 93) 
= {F,} = (F(x WwW) ;Ww E Ws}, k = 1l1,2,.° ,nn 


Hee, Bk SRR, 包含 一 艇 具有 相似 体系 结构 的 多 层 感 知 器 ， 其 权 值 向 量 w 从 一 个 
多 维权 值 空间 W 中 抽出 。 以 函数 或 者 假设 FF 一 F(x,w)，wEWi 为 特征 的 类 的 一 个 成 员 把 输入 
向 量 x 映射 到 (0,1}， 这 里 x 是 以 某 未 知 概率 了 从 输入 空间 史 中 抽 取出 来 的 。 在 所 述 结构 中 每 
个 多 层 感 知 器 都 是 由 反问 传播 算法 训练 的 ， 该 算法 负责 多 层 感知 器 参数 的 训练 。 模 型 选择 问题 
本 质 是 选择 具有 最 好 的 自由 参数 〈 即 突 触 权 值 和 立 值 ) 数 日 w 值 的 多 层 感知 器 。 更 精确 地 讲 ， 
假设 对 输入 向 量 x 的 期 望 响应 标量 是 4 二 {0，1)， 我 们 定义 泛 化 误差 如 下 ， 
E (F) = P(F(x) # d) txeE ¥ 
给 出 一 个 标定 的 训练 样本 集 
一 《XiyGdi) 1 

我 们 的 目标 是 选择 特定 的 假设 F(x,w)， 当 从 测试 集中 给 定 输 入 时 它 最 小 化 所 得 汉化 误差 seCF) 。 

下 面 假设 由 式 (4. 93) 表 达 的 结构 具有 这 样 的 性 质 ， 即 对 于 任意 大 小 的 N 都 可 以 找到 一 个 
具有 数量 足够 多 的 自由 参数 的 数目 Ww CN) 的 多 层 感知 器 ， 使 得 训练 数据 集 F 可 以 被 合适 地 拟 
4 不 过 重申 4. 12 节 的 通用 逼近 定理 。 我 们 把 Ww ND PRA GR. W o (NB 
于 ,一 个 合理 的 模型 选择 程序 应 该 选择 一 个 满足 WW a (N) 的 假设 F(x,w); 否则 网 络 复杂 
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度 将 会 增加 。 

令 一 个 位 于 0 和 1 之 间 的 参数 > 决定 估计 子 集 和 验证 子 集 之 间 的 训练 数据 集 9 的 划分 。 了 由 
N 个 样本 组 成 ，(1 一 ”=) N 个 样本 分 配给 估计 子 集 ， 剩 下 的 rN 个 样本 分 配给 验证 子 集 。 估 计 子 
EAT 表示 ， 它 用 于 训练 多 层 感 知 器 的 一 个 能 套 序列 ， 衣 套 结构 导致 复杂 度 递增 的 假设 F, 
Fost Fns BFF A (1 一 r)N 个 样本 组 成 ， 我 们 认为 丈 的 值 小 于 或 者 等 于 相应 的 拟 合 数 


W aa CLON). 
交叉 验证 方法 的 使 用 导致 选择 
Fe, = „min 《e ， (Fr) } (4. 94) 
HP v MERE WSW a CGSN), eR FETE rN 个 样本 组 成 的 验证 子 集 上 测试 时 由 假 
WH, 产生 的 分 类 误差 。 


关键 问题 是 如 何 具体 确定 参数 r 以 决定 训练 集 了 在 估计 子 集 g 和 验证 子 集 9 之 间 的 划分 。 
在 Kearns(1996) 描述 的 研究 中 ， 对 该 论题 进行 分 析 处 理 和 具体 的 计算 机 仿真 文 持 ， 确 定 了 最 
优 r 的 几 个 定性 特点 : 
。 当 定 义 输入 向 量 x 的 期 望 响应 a 的 目标 晴 数 的 复杂 度 相 对 于 样本 大 小 的 NN 是 很 小 的 时 
候 ， 交 叉 验 证 的 性 能 对 r 的 选择 相对 不 灵敏 。 
。 随 着 目标 函数 相对 于 样本 大 小 N 变 得 更 复杂 ， 最 优 > 的 选择 在 交叉 验证 性 能 上 具有 更 
重要 的 影响 ， 并 且 目 标 函 数 自 身 的 值 减 小 。 | 
。 7 了 的 一 个 单一 固定 的 值 在 目标 函数 复杂 度 的 一 个 相当 大 的 范围 内 保持 近乎 最 佳 。 
根据 Kearns(1996) 报告 的 结果 ，r 等 于 0. 2 的 一 个 固定 值 看 来 是 一 个 合理 的 选择 ， 这 意 
味 着 训练 集 了 的 80% 被 指定 为 估计 子 集 ， 剩 下 的 20%% 被 指定 为 验证 子 集 "。 


训练 的 早期 停止 方法 

通常 ， 用 反 向 传播 算法 训练 的 多 层 感知 器 分 阶段 地 进行 学 习 ， 随 训练 过 程 的 进行 实现 相当 
简单 的 映射 函数 到 更 复杂 的 映射 函数 。 这 通过 在 一 个 典型 情形 下 在 训练 中 均 方 误 差 随 着 训练 回 
合 的 增加 而 减少 的 例子 来 证 明 : 均 方 误差 从 一 个 很 大 的 值 开始 ， 然 后 迅速 地 减 小 ， 最 后 随 着 网 
络 在 误差 曲面 接近 局 部 最 小 值 的 时 候 缓慢 地 减 小 。 目 标 郴 数 的 复杂 度 ， 依 据 输入 向 量 x 定义 需 
要 的 响应 4， 当 该 复杂 度 小 于 样本 大 小 N 时 ， 以 好 的 泛 化 能 力 为 目标 ， 如 果 我 们 通过 观察 自身 
训练 得 到 的 学 习 曲 线 ， 很 难 断 定 何 时 停止 训练 最 好 。 特 别 地 ， 根 据 4. 11 节 关 于 泛 化 的 内 容 ， 
如 果 训 练 未 在 合适 的 时 间 人 停止， 那么 网 络 可 能 过 拟 合 训练 数据 。 

我 们 可 以 通过 交叉 验证 来 标记 过 拟 合 的 发 生 ， 为 此 训练 数据 被 分 成 估计 子 集 和 验证 子 集 。 
使 用 样本 的 估计 子 集 以 通常 方法 训练 网 络 ， 但 有 较 小 的 修改 : 训练 时 间 被 周期 性 地 停止 〈“ 即 每 
一 个 周期 都 有 许多 训练 回合 ) ， 并 且 在 每 个 训练 周期 之 后 都 由 验证 子 集 测 试 网 络 。 具 体 地 讲 ， 
周期 性 的 估计 伴随 确认 (〈estimation-followed-py-validation) 的 过 程 是 如 下 进行 的 : 

。 经 过 一 个 估计 训练 周期 之 后 例如 每 五 个 回合 一 一 多 层 感 知 器 的 突 触 权 值 和 偏 

界 都 已 经 固定， 网 络 是 在 它 的 前 向 方式 下 运作 的 。 从 而 对 验证 子 集中 的 每 个 样本 测定 
验证 误差 。 

。 当 验 证 阶段 完成 的 时 候 ， 估计 VAD 重新 开始 另 一 个 周期 ， 这 个 过 程 被 重复 。 

这 个 过 程 称 作 训练 的 早期 停止 方法 ， 这 是 易于 理解 的 从 而 在 实际 中 广 记 使 用 。 

图 4. 17 显示 了 两 种 学 习 曲 线 的 概念 形式 ， 一 个 属于 估计 子 集 上 的 测定 误差 ， 男 一 个 属于 
验证 子 集 。 通 常 ， 模 型 在 验证 子 集 上 的 表现 并 不 像 它 在 估计 子 集 上 的 表现 那么 出 色 ， 它 的 设计 
是 基于 估计 子 集 的 。 估 计 学 习 曲 线 在 一 般 情况 下 随 训练 回合 数 贞 的 增加 而 单调 地 减 小 。 与 此 相 
对 ， 验 证 学 习 曲 线 单调 地 递减 到 一 个 最 小 值 ， 然 后 开始 随 训练 的 继续 而 递增 。 当 仅 观察 佑 计 学 
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习 曲 线 的 时 候 ， 很 明显 通过 越过 验证 学 习 曲 线 上 的 最 小 点 可 以 得 到 它 的 更 小 的 值 。 然 而 实际 
上 ， 网 络 在 越过 该 点 学 习 到 的 主要 是 包含 在 训练 数据 
中 的 品 声 。 这 种 局 发 方法 意味 着 验证 学 习 曲 线 上 的 最 
小 点 可 用 于 停止 训练 过 程 的 合理 准则 。 
然而 ， 这 里 有 一 点 要 当心 。 在 实际 中 ， 验 证 样本 
误差 在 训练 回合 数 上 的 演化 并 不 能 和 图 4. 17 Sra A 验证 样本 误 将 











想 昌 线 一 样 平滑 。 验 证 样本 误差 更 可 能 在 随 着 回合 数 

的 增加 之 前 本 身 旦 现 少数 局 部 极 小 点 。 在 这 样 的 情形 

下 ， 必 须 在 系统 方式 下 选取 终止 准则 。Prechelt(1998) ee 洲 练 样本 误差 
提出 的 多 层 感 知 器 中 的 实验 调查 从 实验 上 表明 ， 事 实 | 

上 ， 在 训练 时 间 和 泛 化 能 力 上 存在 着 折 中 。 在 1296 个 0 si) BE 





训练 集 、12 个 不 同 的 问题 、24 个 不 同 的 网 络 结构 所 获 
得 训练 结果 的 基础 上 ， 得 到 的 结论 是 存在 两 个 或 更 多 局 
部 极 小 点 的 情形 下 , “ 较 慢 ”的 停止 准则 〈 即 一 个 比 其 他 准则 较 后 停止 的 准则 ) 的 选取 在 花费 更 
长 的 训练 时 间 (典型 地 ， 大 约 平均 4 倍 ) 下 获得 了 泛 化 性 能 的 小 的 改善 (大 约 平均 4%)。 
交叉 验证 的 变 体 

上 述 交 叉 验 证 的 方法 称 为 坚持 到 底 方法 Chold out method)。 在 实际 中 还 有 另外 一 些 能 找 
到 它们 自身 应 用 的 交叉 验证 的 变 体 ， 特 别 是 在 缺乏 标定 样本 的 时 候 。 在 这 样 的 情况 下 可 以 通过 
把 N 个 样本 的 可 用 集合 分 割 为 K 个 子 集 来 使 用 多 重 mi OOO ea 
交叉 验证 方法 ， 开 之 1;， 这 里 假设 N 对 K 是 可 除 的 。 
这 个 模型 在 除了 一 个 子 集 之 外 的 其 他 子 集 上 进行 训练 ， xm] (I 
验证 误差 通过 剩 下 子 集 上 的 测试 来 测量 。 这 个 过 程 总 
共 被 重复 KK 次 试验 ， 每 次 使 用 一 个 不 同 的 子 集 进行 验 实验 3[_] 
证 ， 如 图 4. 18 所 示 K=4 的 情形 。 模 型 性 能 的 评估 是 
通过 求实 验 中 所 有 的 实验 的 验证 平方 误差 的 平均 值 来 


图 4.17 Fee EA A BA ES k EM AS A 





L 
LJ C 


xmcd CO LA L 
进行 的 。 多 重 交叉 验证 存在 -- 个 缺点 : 因为 模型 必须 图 4 18 多 重 交 义 验 让 的 示意 图。 对 一 给 守 








的 实验 ， 带 阴影 的 数据 集 用 来 验证 


训练 K Mm. EC A Hie BT pe H, REIS ; 
训练 K 次 ， 它 可 能 需要 过 多 的 计算 量 ， 这 里 


KSN. 

当 可 用 的 标定 样本 的 数目 N 被 严格 限制 的 时 候 ， 我们 可 以 使 用 被 称 为 留 一 方法 (leave- 
one-out method) 的 多 重 交 又 验证 的 极端 形式 。 存 这 种 方法 中 ，N 一 1 个 样本 用 来 训练 模型 ， 
并 且 这 个 模型 通过 剩 下 的 一 个 样本 的 测试 来 验证 。 这 个 实验 总 共 被 重复 N 次 ， 每 次 留 出 一 个 
不 同 的 样本 来 进行 验证 。 然 后 通过 验证 的 平方 误差 在 N 次 实验 上 求 平均 。 


4.14 ”复杂 度 正则 化 和 网 络 修剪 


无 论 用 何 种 方式 设计 一 个 多 层 感 知 器 ， 实 际 上 都 是 对 生成 用 于 训练 网 络 的 输入 输出 样本 的 
物理 现象 建立 一 个 非 线性 模型 。 就 网 络 的 设计 而 论 在 本 质 上 还 是 统计 的 ， 我 们 需要 在 训练 数据 
的 可 靠 性 和 模型 的 适应 度 之 间 寻 找 一 个 适当 的 平衡 〈 即 在 第 2 章 中 解决 偏 置 方差 困境 的 方法 )。 
在 反 向 传播 学 习 的 背景 下 ， 或 者 任何 其 他 的 监督 学 习 过 程 而 言 ， 我 们 都 可 能 通过 最 小 化 表述 如 
下 的 总 量 风 险 以 实现 折 中 : 

R(W) = Ea (w) +A €E. Cw) (4.95) 
第 一 项 色 ,(w) ARE ERE. EVIE RAD AURA RGR. TEI IR IG HBF md 
中 ， 它 被 典型 地 定义 为 均 方 误差 ， 该 误差 的 计算 扩展 到 网 络 输出 神经 元 ， 并 且 它 在 每 一 回合 好 


ww ai bbt. com 000000 





110° #48 多 层 感知 器 


基础 上 对 所 有 训练 样本 来 完成 ， 参 考 式 (4.5)。 第 二 项 和 @(Cw) 是 复杂 度 惩 罚 ， 复 杂 度 仅 依 赖 于 网 
络 〈 模 型 ); 它 所 包含 的 内 容 利 用 我 们 可 能 具有 的 关于 所 考 虚 模型 的 解 的 先 验 知识 。 对 于 当前 
的 讨论 ， 把 4 看 作 正 则 化 参数 就 足够 了 ， 它 代表 着 关于 性 能 度量 项 的 复杂 度 惩罚 项 的 相对 重要 
性 。 当 4 为 零 的 时 候 ， 反 向 传播 学 习 过 程 是 无 约束 的 ， 网 络 由 训练 样本 完全 确定 。 另 一 方面 ， 
当 4 趋 于 无 穷 大 的 时 候 ， 这 意味 着 由 复杂 度 惩罚 所 得 到 的 约束 自身 就 可 以 具体 确定 网 络 ， 用 妹 
一 种 说 法 就 是 训练 样本 是 不 可 靠 的 。 在 复杂 度 正 则 化 的 实际 应 用 中 ， 正 则 化 参数 1 被 赋予 两 个 
极端 情形 之 间 的 某 个 位 置 的 值 。 第 7 章 将 讨论 正则 化 理论 的 细节 。 
ALA SEU L FE 

在 一 个 简单 但 有 效 的 称 为 权 值 衰减 过 程 (Hinton, 1989 的 复杂 度 正 则 化 中 ， 复 杂 度 惩罚 
项 被 定义 为 网 络 中 权 值 向 量 w( 即 所 有 的 自由 参数 ) 的 平方 范 数 ， 表 示 为 

Ew = w= >) w (4. 96) 


iE Bioral 


其 中 集合 4 是 指 网 络 中 所 有 的 突 触 权 值 。 这 个 过 程 是 通过 强迫 网 络 中 的 一 些 突 航 权 值 取 近 仆 
于 零 的 值 来 进行 的 ， 而 允许 其 他 的 权 值 保持 它们 相对 大 的 值 。 所 以 ， 网 络 的 权 值 大 致 分 为 两 
个 类 ， 

1) 对 网 络 性 能 具有 很 大 影 啊 的 权 值 ，。 

2) 对 网 络 性 能 具有 很 少 或 者 根本 没有 影响 的 权 值 。 

在 后 一 类 中 的 权 值 称 为 多 余 权 值 。 在 不 进行 复杂 度 正则 化 的 情况 下 ， 这 些 权 值 很 可 能 取 完 
全 任意 的 数值 ， 或 为 了 得 到 训练 误差 上 的 轻微 减少 而 促使 网 络 过 度 拟 合 训 练 数据 ， 从 而 导致 很 
差 的 泛 化 性 能 (Hush and Horne，1993)。 复 杂 度 正则 化 的 使 用 鼓励 多 余 权 值 取 得 接近 于 零 的 
数值 ， 因 而 提高 沁 化 能 力 。 
基于 Hessian 乍 阵 的 网 络 修剪 : 最 佳 脑 外 科 医 生 

网 络 修剪 解析 方法 的 基本 思想 是 利用 误差 曲面 的 二 次 导数 信息 得 到 网 络 复杂 度 和 训练 放 老 
性 能 之 间 的 折 中 方案 。 特 别 地 ， 构 造 误差 曲面 的 一 个 局 部 模型 ， 解 析 地 预测 突 触 权 值 的 扰动 所 
造成 的 影响 。 构 造 这 样 一 个 模型 结构 的 出 发 点 是 在 运行 点 附近 使 用 Taylor 级 数 给 出 代价 函数 
,的 局 部 台 近 ， 描 述 如 下 : 

Ea (W + Aw) = Ea (W) + 27 (Ww Aw + [Aw HAW + OC || Aw ||") (4. 97) 


其 中 aw 是 运行 点 w 的 扰动 ，g(Cw) 是 在 w 处 的 梯度 向 量 。Hessian 矩阵 同样 在 w 点 进行 计算 ， 
因而 ， 为 了 准确 起 见 ， 我 们 用 下 (w) 来 表示 它 。 在 式 (4.97) 中 并 没有 这 人 么 做 仅仅 是 因为 简化 
记号 。 

要 求 确 认 一 组 参数 使 得 从 多 层 感 知 器 上 删除 它们 而 代价 函数 名 ,的 值 增 长 最 小 。 为 了 实际 
解决 这 个 问题 ， 我 们 进行 如 下 遥 近 : 

1. 极 值 逼近 。 我 们 假设 参数 仅 在 训练 过 程 收敛 〈 即 网 络 被 完全 训练 ) 之 后 才 被 从 网 络 中 
删除 。 这 个 假设 的 含义 就 是 参数 的 取 值 为 误差 曲面 上 一 个 局 部 最 小 或 者 全 局 最 小 。 在 这 种 情况 
F., MEE g 可 以 设 为 零 因而 可 以 忽略 式 (4. 97) 右 边 的 grAw 项 。 否 则 显著 性 度量 〈 将 在 后 
边 定义 ) 将 对 当前 问题 无 效 。 

2, 二 次 禹 近 。 我 们 假设 局 部 最 小 或 者 全 局 最 小 周围 的 误差 曲面 是 近似 “二 次 的 ”。 因 此 同 
样 可 以 忽略 式 (4. 97) 中 的 更 高 次 项 。 

在 这 两 个 假设 之 下 ， 式 (4. 97) 被 简单 近似 为 : 


AE, = (w+ Aw) — Ew) = > Aw" HAW (4, 98) 
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式 (4. 98) 提 供 了 称 为 最 优 脑 外 科 (optimal brain surgeon, OBS) 的 修 前 过程 ， 这 是 根据 Hasst 
bi and Stork(1993) 而 来 的 。 
OBS 的 目标 是 署 一 个 罕 触 权 值 为 零 使 得 式 (4. 98) 中 给 出 的 名, 的 递增 增 量 最 小 化 。 令 wn) 
表示 这 个 特别 的 突 触 权 值 。 这 个 权 值 的 删除 等 价 于 条 件 : 
1/ Aw + w; = 0 (4,99) 
成 立 ， 其 中 1; 是 除了 第 i 个 元 素 等 于 单位 1 之 外 其 他 所 有 元 素 均 为 零 的 单位 向 量 。 现 在 可 以 重 
H OBS 的 目标 如 下 : 


对 权 值 向 量 增 长 变化 AW 最 小 化 二 次 型 去 > Aw" HAw, 使 它 满足 约束 条 件 li AW 十 w; AB, 
然后 关于 下 标 i 求 最 小 化 。 


这 里 进行 两 个 层次 上 的 最 小 化 。 一 个 最 小 化 是 当 第 i 个 权 值 癌 量 置 零 后 对 仍 保留 的 突 触 权 
值 向 量 进行 的 ;第 二 个 最 小 化 是 对 特定 被 修剪 的 癌 量 进行 的 。 
为 了 解决 这 个 约 东 最 优化 问题 ， 首 先 构 建 一 个 拉 格 明日 算 子 


ex = Aw" Haw — aC? Aw + w) (4. 100) 


其 中 、 是 拉 格 朗 日 乘 子 。 然 后 求 拉 格 郎 日 函数 S 对 Aw 的 导数 ， 应 用 式 (4. 99) 的 约束 条 件 ， 并 
且 利 用 矩阵 的 道 ， 我 们 发 现 权 值 向 量 w 中 的 最 佳 变化 是 


Aw 一 一 = H `I, (4. 101) 


ESAN 
拉 格 朗 日 算 子 S 对 元 素 w 的 相应 最 优 伍 是 


= Wi 
S; [H>]; (4. 102) 


其 中 H Æ Hessian 矩阵 HAM, [B] EAA EEE (i,i) 个 元 素 。 假 设 第 i 个 突 触 
权 值 w, 被 删除 ， 对 Aw 进行 优化 而 得 到 的 拉 格 朗 日 算 子 S: Aw, 的 显著 性 (saliency)。 事 实 
E, BEHS REAT w 的 删除 而 导致 的 均 方 误差 (性 能 标准 ) 中 的 增长 。 注 意 显 车 性 >， 
是 与 w? 成 正比 的 。 这 样 小 的 权 值 在 均 方 误差 上 具有 小 的 影响 。 然 而 ， 从 式 (4. 102) 中 可 以 看 到 
显著 性 S; 同样 与 道 Hessian 矩阵 的 对 角 元 素 成 反比 。 这 样 如 果 LH), aD, 那么 甚至 小 
的 权 值 也 可 能 对 均 方 误差 有 实质 性 的 影响 ，。 

在 OBS 过 程 中 ， 相 应 于 最 小 特征 值 的 权 值 被 选 为 删除 的 权 值 。 此 外 ， 剩 余 权 值 的 最 佳 变 
化 由 公式 (4. 101) 给 出 ， 这 说 明 它 们 可 以 沿 逆 Hessian 矩阵 的 第 i 列 方向 被 校正 。 

据 Hassibi 等 人 发 表 的 关于 一 些 基 准 问题 的 内 容 ，OBS 过 程 产 生 的 网 络 比 其 他 通过 权 值 衰 
减 的 过 程 得 到 的 网 络 更 小 。 同 时 报告 OBS 过 程 应 用 于 包含 单个 隐藏 层 和 18 000 个 权 值 的 多 层 
感知 器 NETtalk 的 结果 ， 网 络 被 修 前 到 仅 有 1 560 个 权 值 ， 这 在 网 络 的 大 小 上 有 急剧 的 减少 。 
归功 于 Sejnowski 和 Rosenberg(1987) AY NE Ttalk, 将 在 4.18 节 中 讲述 。 

计算 Hessian EKER. Hessian 矩阵 的 道 H :是 OBS 过 程 的 公式 基础 。 当 网 络 中 自由 参 
数 W 的 数 昌 很 大 的 时 候 ， 计算 H-: 的 问题 可 能 是 难以 处 理 的 。 设 多 层 感知 器 被 完全 训练 到 放 
差 曲面 上 的 局 部 最 小 ， 下 面 我 们 描述 一 个 计算 H-:1 的 可 探 过程 (Hassibi and Stork, 1993). 

为 了 简化 表达 ， 假 设 多 层 感 知 器 具有 单个 输出 神经 元 。 然 后 对 一 个 给 定 的 训练 集 可 以 把 式 
(4.5) 的 代价 函数 表示 为 : 


Ea (W) = Kew —o(n))? 
其 中 o(n) 是 第 n 个 样本 输入 时 网 络 的 实际 输出 ，d(n) 是 相应 的 期 望 响 应 ，N 是 训练 集中 样本 


ww ai bbt.com TWOAOOO0 





112-4482 多 层 感 知 器 


的 总 数 。 输 出 oCn) 本 身 可 以 表示 为 : 

oln) = FCw.x) 
HEE OF at & Jee BRA aS SEO os A at a eK, x 是 输入 向 量 ，w 是 网 络 的 突 触 权 值 向 量 。 因 
HE En XT w 的 一 阶 导 数 为 : 





dEn 1 OF(w,x(n)) o 
= (d(n) — o(n)) (4. 103) 


Sav XT w 的 二 gaat sau 矩阵 是 : 


> { (PEAD ) (Ewx) _ O° F(w.x(n)) 


HON) = v zw? 


ae —o(n))| 





(4.104) 
这 里 我 们 强调 了 Hessian 和 矩阵 对 训练 样本 大 小 N 的 依赖 性 。 
在 网 络 是 被 完全 训练 的 假设 下 ， 即 代价 函数 包 . 被 调整 到 误差 曲面 的 一 个 局 部 最 小 值 ， 
说 o(C 近似 于 &( 人 是 合理 的 。 在 这 个 条 件 下 我 们 可 以 忽略 第 二 项 ， 这 样式 (4.104) Mie 
近 为 : 


a 19) ( BE Qe Cw)? ) (BECK)? (4,105) 


HON) =~ a 


为 了 简化 符号 ， 定义 WX1 HE: 





1 OF(w,x(n)) 





E(n) = OM (4, 106) 
它 可 以 通过 4.8 万 所 述 的 过 程 来 计算 。 然 后 我 们 就 可 以 用 递归 的 形式 重 写 式 (4. 105) 如 下 : 
H(n) = DEBT) = H(n—1) HEMET Gn), n= 152,05 N (4. 107) 
SSCA LUTTE J PE RAE a 31 E 用 的 正确 形式 ， 它 也 称 为 Woodbury FA. 


令 A 和 B 表示 由 关系 
A = B'+4CDC’ 
mE MAE EOE. EP CA DEAS ASEM. ATES. EE A BE AW 
A- = B—BC(D+C'BC)'C’B 
对 于 式 (4. 107) 中 所 述 的 问题 我 们 有 


A = H(n) 
B' = H(n—1) 
C= &(n) 
D= 1 
应 用 和 矩阵 逆 引 理 得 到 对 于 Hessian 矩阵 求 道 的 递归 计算 公式 : 
a= ea = eee) (4, 108) 


1 HETH (n — LEC) 
注意 式 (4. 108) 中 的 分 母 是 一 个 标量 ;因此 直接 计算 它 的 倒数 。 这 样 ， 给 定 Hessian MAM tat He 
的 值 H-! (Cn 一 1)， 我 们 就 可 以 计算 它 由 向 量 &(n) 表 示 的 第 个 样本 呈现 后 的 更 新 值 H-:(z) 。 这 个 
递归 计算 将 继续 到 N 个 样本 的 整个 集合 被 计算 为 止 。 为 了 初始 化 这 个 算法 ， 我 们 需要 使 H'O) 
很 大 ， 因 为 根据 式 (4. 108) 它 是 持续 地 减少 的 。 这 个 要 求 可 以 通过 如 下 设 定 来 满足 : 
mO = 一 人 1 
其 中 5 是 一 个 小 的 正 数 ，I 是 单位 矩阵 。 这 个 初始 化 的 形式 保证 H (zx) 总 是 正定 的 。8 的 影响 
e a tank Pata 
# 4. 1 是 最 优 脑 外 科 算 法 的 小 结 
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表 4.1 最 优 脑 外 科 算 法 小 结 


+ 一 


. 训练 给 定 多 层 感知 器 至 最 小 均 方 误差 。 
. 利用 4 8 节 所 述 过 程 计算 向 量 


BG 


1 OF Cw.x(a)) 
/AN Ow 





Eln) = 
Hh Fiw, x naD EHEAR bh whee RABE HBA. x A A EH a 


,利用 递归 式 (4. 108) 计 算 Hessian PEMD H, 
. 寻找 相应 于 最 小 显著 性 的 产 


= 


s= wW 

| 2 Hs 
其 中 [H] E Ha E G, D 个 元 素 。 如 果 显 著 性 S 远 小 于 均 方 误差 名,， 那么 删除 突 触 权 值 w,， 并 且 执 行 第 5 
W. FIM. FR EP. 

. 通过 应 用 如 下 的 调整 来 补正 网 络 中 所 有 的 突 触 权 值 : 


AW = 


o1 


ww, = 
og 


转 第 2 步 。 
. 当 不 再 有 权 值 可 以 因为 网 络 中 均 方 误差 没有 大 的 增加 而 被 删除 的 时 候 停 止 计算 。 (也 许 期 望 在 该 点 重新 训练 网 络 .) 


mn 





4.15 友 向 传播 学 习 的 优点 和 局 限 


首先 最 重要 的 是 ， 需 要 理解 反 向 传播 算法 不 是 试图 实现 最 优 设计 的 多 层 感 知 妖 的 算法 。 描 
述 它 的 正确 途径 应 该 是 : | 

反 向 传播 算法 是 一 个 对 于 计算 代价 通 数 名 (tw) 的 梯度 ( 即 一 阶 导 数 ) 计算 有 效 的 技术 。 代 
价 函 数 由 刻画 多 层 感 知 器 的 可 调 参 数 〈 突 触 权 值 和 偏 置 ) 的 通 数 来 表示 。 


算法 的 计算 能 力 是 由 两 个 明显 的 性 质 而 导出 的 : 

1. 反 向 传播 算法 是 局 部 计算 简单 的 。 

2. 当 算 法 是 在 线 GRR) 学 习 时 它 实现 权 值 空间 的 随机 梯度 下 降 。 
连接 机 制 

反 向 传播 算法 是 依靠 局 部 计算 来 发 现 神 经 网 络 信 息 处 理 能 力 的 一 个 连接 论 者 范例 的 例子 ，。 
计算 限制 的 这 种 形式 称 为 局 部 约束 ， 它 是 指 单 个 神经 元 实现 的 计算 仅 受 那 些 与 它 有 物理 接触 的 
神经 元 的 影响 。 在 (人工) 神经 网 络 的 设计 中 提倡 利用 局 部 计算 通常 有 三 个 主要 的 理由 ， 

1. 实现 局 部 计算 的 神经 网 络 常常 被 作为 生物 神经 网 络 的 类 比 来 推举 。 

2. 由 于 使 用 局 部 计算 允许 由 于 硬件 错误 引起 的 平稳 的 性 能 下 降 ， 因 此 为 容错 网 络 设 计 提 
供 基础 。 

3, 局 部 计算 支持 作为 神经 网 络 实现 有 效 方 法 的 并 行 体系 结构 。 
复制 器 ( 恒 等 ) 映射 

通过 反 向 传播 算法 训练 的 多 层 感 知 器 的 隐藏 神经 元 作为 特征 检测 器 扮演 着 重要 的 角色 。 利 
用 多 层 感知 器 的 这 个 重要 性 质 的 一 个 新 方法 是 使 用 它 作为 复制 器 或 者 恒 等 映射 (Rumelhart 
等 ，1986b; Cottrel 等 ，1987)。 图 4. 19 表明 对 于 使 用 单个 隐藏 层 的 多 层 感知 器 情况 下 这 是 如 
何 完成 的 。 网 络 构 形 满足 如 下 的 结构 要 求 ， 正 如 图 4. 19a 所 示 的 那样 : 

s 输入 和 输出 层 神 经 元 数 目 具 有 相同 的 大 小 me 

。 隐藏 层 的 神经 元 个 数 M 小 于 m。 

。 网 络 是 完全 连接 的 。 

个 给 定 的 模式 x 同时 作为 输入 层 的 刺激 和 输出 层 的 期 望 响应 。 输 出 层 的 实际 响应 # 是 打 
管用 作 x 的 “全 计 ”。 通 过 常用 的 方法 使 用 反 向 传播 算法 训练 网 络 ， 佑 计 误 差 向 量 “x 一 *) 作 
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为 误差 信号 处 理 ， 如 图 4. 19b 所 示 。 这 个 训练 是 在 无 监督 情形 下 完成 的 《〈 即 不 需要 教师 ) 。 借 
助 多 层 感 知 器 的 设计 所 建立 的 特殊 结构 这 一 优 氮 ， 通 过 它 的 隐藏 层 约束 网 络 以 实现 便 等 映射 。 
输入 模式 的 一 个 编码 形式 ， 用 s 表示 ， 它 是 在 隐藏 层 的 输出 中 产生 的 ， 如 图 4. 19a 所 示 。 事 实 
上 ， 完 全 训练 的 多 层 感知 器 充当 了 “编码 器 ”的 角色 。 为 了 重 构 初 始 输 入 模式 x 的 估计 X( 即 实 
现 解码 )， 我 们 将 编码 信号 应 用 于 复制 套 网 络 隐藏 民 ， 如 图 4. 19c 所 示 。 事 实 上 ， 后 面 的 网 络 
扮演 了 “解码 器 ”的 角色 。 如 果 我 们 使 得 隐藏 层 的 大 小 M 与 输入 /输出 层 大 小 mx 相 比 越 小 ， 那 
么 图 4. 19a 的 结构 作为 一 个 数据 压缩 系统 的 作用 就 越 大 “， 
F ARR KIAS 
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图 4.19 a) 具有 一 个 隐藏 层 的 作为 编码 器 的 复制 器 网 络 ( 恒 等 映射 ); b) 复制 器 网 络 监督 训 
练 的 方 框图 ; ec) 作为 解码 器 的 复制 器 网 络 部 分 


pay ZOB JUL 
通过 反 向 传播 算法 训练 的 多 层 感知 器 自身 表明 是 一 个 能 套 sigmoid 函数 结构 ， 在 单个 输出 
的 情形 下 用 紧凑 形式 写 为 : 
F(x,w) = ọ( Dwugl Dwsy ly we (4. 109) 


其 中 2(。) 是 sigmoid 激活 函数 ，vww 是 从 最 后 一 个 隐藏 层 的 神经 元 & 到 单个 输出 神经 元 的 突 
触 权 值 ， 依 此 类 推 得 到 其 他 突 触 权 值 ，z; 是 输入 向 量 x 的 第 i 个 元 素 。 权 值 向 量 w RAN RAN 
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值 的 完整 集合 ， 其 排列 顺序 首先 按 层 ， 然 后 按 每 层 中 的 神经 元 ， 最 后 按 神 经 元 中 的 突 触 。 式 
(4.109) 中 艇 人 非 线 性 函数 的 设计 在 经 典 通 近 论 中 是 不 常见 的 。 正 如 第 4. 12 节 讨 论 的 那样 ， 
它 是 一 个 通用 逼近 器 。 

计算 的 效率 


算法 的 计算 复杂 度 通 常 是 用 乘法 、 加 法 的 次 数 和 它 的 实现 所 涉及 的 存储 量 来 衡量 的 。 一 个 
学 习 算 法 从 一 次 近代 到 下 一 次 迭代 ， 知 它 的 计算 复杂 度 对 于 要 更 新 的 可 调整 参数 的 数目 而 言 是 
多 项 式 的 ， 我 们 就 说 这 个 算法 是 计算 有 将 的 。 在 这 个 基础 上 ， 也 可 以 说 反 向 传播 算法 是 计算 有 
效 的 ， 正 如 本 节 的 开始 部 分 所 总 结 的 那样 。 特 别 地 ， 在 使 用 这 一 算法 进行 包含 全 部 的 突 触 权 值 
W( 包 括 偏 置 ) 的 多 层 感 知 占 的 训练 中 ， 它 的 计算 复杂 度 在 W 中 是 线性 的 。 反 疝 传 播 算法 的 这 
个 重要 性 质 可 以 通过 检查 如 4.4 节 所 述 的 完成 前 向 通过 和 反 向 通过 所 涉及 的 计算 而 容易 得 到 证 
明 。 在 前 问 通 过 中 ， 计 算 涉 及 的 突 触 权 值 是 那些 网 络 中 不 同 神 经 元 的 诱导 局 部 域 所 属 的 权 值 。 
这 里 我 们 从 式 (4. 44) 看 到 这 些 计 算 对 网 络 的 突 触 权 值 是 线性 的 。 在 反 同 通过 中 ， 涉 及 突 触 权 值 
的 仅 有 的 计算 是 那些 分 别 由 式 (4. 46) 和 式 (4.47) 所 述 的 属于 (1) 隐藏 神经 元 的 局 部 梯度 和 
(2) 突 触 权 值 自身 的 更 新 。 这 里 同样 可 以 看 到 这 些 计 算 对 网 络 的 突 触 权 值 全 部 是 线性 的 。 因 此 
得 出 结论 ， 反 向 传播 算法 的 计算 复杂 上 度 对 W 是 线性 的 ， 即 它 是 OW). 
灵敏 度 分 析 

从 使 用 反 向 传播 学 习 中 得 到 的 另 一 个 计算 上 的 好 处 是 它 提 供 了 一 个 有 效 的 方法 ， 通 过 它 可 
以 进行 由 这 个 算法 实现 的 输入 输 出 映射 的 灵敏 度 分 析 。 输 入 输出 映射 函数 下 关于 辣 数 的 一 个 
参数 的 灵敏 度 ， 以 w Hm, BMA: 

or — SF/ 

Ow/w 
然后 考虑 一 个 经 过 反 向 传播 算法 训练 的 多 层 感 知 能 。 令 函数 F(w) 为 网 络 实 现 的 输入 输出 映射 ; 
w 表示 网 络 中 包含 的 所 有 突 触 权 值 (包括 偏 置 ) 问 量 。 在 4.8 节 中 我 们 证 明了 酚 数 Cw) XE 
值 向 量 w 中 所 有 元 素 的 偏 导数 是 可 以 进行 有 效 计算 的 。 特 别 地 ， 我 们 知道 这 些 仿 导数 计算 所 涉 
及 的 复杂 度 对 网 络 包含 权 值 的 总 数 W 是 线性 的 。 这 种 线性 关系 与 问题 的 突 触 权 值 在 计算 链 中 
出 现 的 位 置 无 关 。 
FETE E 

在 第 3 章 中 我 们 指出 ，LMS 算法 中 能 量 小 的 扰动 只 会 引起 小 的 估计 误差 ， 从 这 个 角度 来 
看 它 是 鲁 棒 的 。 如 果 固 有 的 观察 模型 是 线性 的 ，LMS 算法 是 一 个 WRK (Hassibi $, 
1993，1996) 。 这 意味 着 LMS 算法 最 小 化 由 估计 误差 的 扰动 带 来 的 最 大 能 量 增益 。 

从 另 一 方面 来 看 ， 如 果 固 有 的 观察 模型 是 非 线 性 的 ，Hassibi 和 Kailath(1995) 证 明了 反 
向 传播 算法 是 一 个 局 部 H” 最 优 滤波 器 。 这 里 使 用 的 “局 部 ”术语 是 指 反 向 传播 算法 中 使 用 的 
权 值 向 量 初始 值 充分 靠近 权 值 向 量 的 最 优 值 w” ， 以 确保 该 算法 不 陷入 一 个 坏 的 局 部 最 小 中 。 
用 概念 性 的 说 法 ， 看 到 LMS 和 反 向 传播 算法 属于 同一 类 型 的 H” 最 优 滤波 器 是 令 人 满意 的 。 
收敛 性 

反 向 传播 算法 在 权 值 空间 中 对 于 误差 曲面 上 的 梯度 使 用 “有 瞬时 估计 ”因此 该 算法 在 本 质 
上 是 随机 的 ; 也 就 是 说 ， 它 在 误差 曲面 上 具有 通过 在 真实 方向 附近 的 锯齿 形 路 线 趋 于 最 小 点 的 
倾向 。 其 实 ， 反 向 传播 学 习 是 最 初 由 Robbins and Monro(1951) 提出 的 所 谓 随 机 带 近 的 统计 
学 方法 的 一 个 应 用 。 因 此 ， 它 倾向 于 缓慢 收敛 。 我 们 可 以 验 明 这 个 性 质 的 两 个 基本 原因 《Ja- 
cobs, 1988): 

1. 误差 曲面 沿 着 一 个 权 值 方向 是 相当 平坦 的 ， 这 意味 着 误差 曲面 对 这 个 权 值 的 导数 在 数 


(4. 110) 
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景 上 是 很 小 的 。 在 这 种 情况 下 ， 应 用 于 这 个 权 值 的 调整 是 很 小 的 ， 因 此 在 网 络 误差 性 能 上 产生 
重大 的 降低 可 能 要 求 这 个 算法 的 多 次 迭代 。 或 男 一 方面 ,误差 曲面 沿 着 一 个 权 值 方向 是 高 度 弯 
曲 的 ， 在 这 种 情形 下 误差 曲面 对 该 权 值 的 导数 在 数量 上 是 很 大 的 。 在 这 第 二 种 情况 下 ， 应 用 于 
该 权 值 的 调整 是 很 大 的 ， 这 可 能 会 导致 该 算法 越过 误差 曲面 的 最 小 点 。 

2. 负 梯 度 向 量 的 方向 ( 即 代价 函数 对 权 值 回 量 的 负 导 数 〉 可 能 指 回 远离 误差 曲面 的 最 小 
值 : 因此 应 用 于 权 值 的 调整 可 能 导致 算法 往 错 误 的 方向 进行 。 

为 了 避免 用 于 训练 多 层 感 知 器 的 误差 反 向 传播 算法 的 慢 速 收 伍 ， 我 们 可 以 选择 如 4. 10 i 
所 摘 述 的 最 优 退 火 在 线 学 习 算 法 。 

局 部 最 小 值 

对 有 反 向 传播 算法 性 能 造成 影响 的 误差 曲面 的 男 一 个 特点 是 除了 全 局 最 小 值 之 外 的 局 部 最 小 
E CANAD 的 出 现 。 通 常 ， 很 难 确定 有 多 少 个 局 部 和 全 局 最 小 值 。 由 于 反 癌 传播 学 习 基 
本 上 是 一 个 谎 山 技术 ， 因 此 它 存 在 陷 人 局 部 最 小 值 的 危险 ， 此 处 罕 触 权 值 的 每 个 微小 变化 都 会 
引起 代价 函数 的 增长 。 但 在 权 值 空间 的 别 的 某 个 地 方 存在 男 外 一 个 突 触 权 值 的 集合 ， 它 的 代价 
函数 的 值 比 在 网 络 被 停止 处 的 局 部 最 小 值 更 小 。 我 们 显然 不 希望 学 习 进 程 停止 在 局 部 最 小 信 ， 
特别 是 当 它 处 于 远 高 于 全 局 最 小 值 的 位 置 。 
规模 

原则 上 ， 诸 如 由 反 向 传播 算法 训练 的 多 层 感 知 器 之 类 的 神经 网 络 具 有 成 为 通用 计算 机 融 的 
潜在 可 能 。 然 而 ， 要 充分 实现 这 种 潜能 ， 必 须 克 服 规模 (scaling) 问题 ， 它 是 指 随 计算 任务 在 
大 小 和 复杂 性 上 的 增加 网 络 表 现 的 优 劣 〈 如 由 训练 所 需 时 间 和 可 得 到 的 最 优 泛 化 性 能 来 衡量 ) 
的 问题 。 在 度量 计算 任务 大 小 和 复杂 度 的 许多 可 能 的 办 法 中 ,由 Minsky and Papert(1969, 
1988) 定义 的 谓词 阶 Cpredicate order) 提供 了 最 有 用 也 是 最 重要 的 标准 。 

为 了 解释 一 个 谓词 意味 着 什么 ， 令 由 (X) 表 示 一 个 只 能 有 两 个 取 值 的 函数 。 通 党 取 p(X) 
的 两 个 值 为 0 和 1。 但 通过 取 值 为 假 (FALSE) 或 真 “TRUE)， 可 以 认为 y(X) 是 一 个 请 词 ， 
即 一 个 可 变 的 陈述 ， 其 真 和 假 依赖 于 变量 X 的 选择 。 例 如 ， 我 们 可 以 号 出 

E on |. 着 图 形 关 是 一 个 图 
TF 0 老 图 形 X 不 是 一 个 加 
使 用 谓词 的 思想 ，Tesauro and Janssens(1988) 进行 实证 研究 ， 使 用 反 向 传播 算法 训练 多 
层 感知 器 来 学 习 计 算 奇 偶 函 数 。 奇 偶 函 数 是 如 下 定义 的 布尔 谓词 : 
1 #I|X| 2K 
Wpariry CX) = r es 
它 的 阶 数 等 于 输入 的 个 数 。Tesauro 和 Janssens EIT MIR TRS, RAE I A Ay A 
所 需 的 时 间 与 输入 个 数 〈 即 计算 的 谓词 阶 数 ) 呈 指 数 关系 ， 并 且 使 用 反 向 传播 算法 学 习 任 意 复 
杂 的 函数 的 计划 可 能 是 过 于 乐观 的 。 

一 般 认 为 对 一 个 多 层 感 知 器 进行 完全 连接 是 失策 的 。 因 此 ， 在 此 背景 下 ， 我 们 可 以 提出 如 
下 问题 ， 给 定 一 个 不 应 被 完全 连接 的 多 层 感 知 器 ， 网 络 的 突 触 连接 将 如 何 分 配 ? 这 个 问题 在 小 
规模 的 应 用 情况 并 不 是 主要 考虑 的 问题 ， 但 它 对 利用 反 向 传播 学 习 解 决 现实 世界 中 大 规模 的 问 
题 的 成 功 应 用 是 至 关 重 要 的 。 

减轻 规模 问题 的 一 个 有 效 办 法 是 发 展 对 当前 问题 的 认识 《可 能 是 通过 神经 生物 学 的 类 比 ) 
并 利用 它 增加 多 层 感 知 器 体系 结构 设计 的 灵活 性 。 具 体 地 讲 ， 网 络 体系 结构 和 加 于 网 络 突 触 权 
值 上 的 约束 应 该 这 样 设计 ， 以 使 关于 任务 的 先 验 知识 合并 到 网 络 的 组 成 中 去 。 这 种 设计 策略 在 
第 4. 17 节 中 在 关于 光学 字符 识别 的 问题 中 说 明 。 
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4. 16 ”作为 最 优化 问题 看 竺 的 监督 学 习 


本 忆 用 一 种 与 前 面 几 市 讨论 有 很 大 不 同 的 关于 监督 学 习 的 观点 。 有 具体 地 讲 ， 我 们 把 多 层 感 
知 器 的 监督 训练 看 作 是 一 个 数值 最 优化 问题 。 在 这 个 背景 下 我 们 首先 指出 使 用 监督 学 习 的 多 层 
感知 器 的 误差 曲面 是 突 触 权 值 癌 量 w 的 高 度 非 线 性 函数 ;在 多 层 感 知 咒 的 情形 下 ，w 表示 网 络 
中 以 某 种 顺序 排列 的 突 触 权 值 。 令 把 .《w) 表 示 在 训练 样本 上 的 平均 代价 隔 数 。 使 用 Taylor 级 

数 ， 在 误差 曲面 当前 运行 点 附近 我 们 可 以 如 式 (4. 97) 那 样 展 开 %,(w)， 这 里 重 写 为 : 

Ea Cwln) + Awln)) =Ea WN)) +g Cn) Aw) 
让， Ling (4.111) 
zi > Aw (mMH(mMAw(n) 十 (三 次 和 更 离 次 项 ) 


其 中 g(a) Se Jar ah PB BE Es 定义 为 : 





g(n) = a Sak 本 (4.112) 
H(n) 是 局 部 Hessian Æ, AIRRA ee “Re”, EMH: 
H(n) = 3 = (4.113) 





总 体 - 平 均 代 价 函 数 &,(Cw) 的 使 用 预 设 了 批量 学 习 。 

在 以 反 向 传播 算法 为 例 的 最 速 下 降 法 中 ， 应 用 于 突 触 权 值 向 量 w(C2) 的 调节 量 Aw(n) 定 
SA: 

Aw(n) =— gln) (4. 114) 
其 中 y AEWA BBR. BS, BOE PMR EIS TT wO) H J RRE ER XT IC BF eR BI 
线性 通 近 基础 上 进行 计算 的 。 在 这 样 的 处 理 中 ， 它 依赖 于 作为 误差 曲面 局 部 信息 唯一 来 源 的 梯 
度 向 量 g(n)。 这 个 限制 具有 一 个 有 利 的 效果 : 实现 的 简单 性 。 不 这 的 是 ， 它 同样 具有 一 个 不 
利 的 影响 : 缓慢 的 收敛 速度 ， 特 别 是 在 大 规模 问题 的 情形 下 这 是 令 人 烦恼 的 。 在 权 值 更 新 的 公 
式 中 包含 动量 项 是 使 用 误差 曲面 二 阶 信息 的 大 胆 尝 试 ， 这 样 做 有 一 些 帮 助 。 然 而 ， 由 于 必须 在 
由 设计 者 “调整 ”的 参数 列表 中 增加 一 项 ， 它 的 使 用 使 得 训练 过 程 的 管理 更 费时 间 。 

为 了 使 多 层 感 知 器 的 收敛 性 能 有 显著 的 改善 (与 反 向 传播 学 习 相 比 )， 必 须 使 用 训练 过 程 
的 高 阶 信息 。 我 们 可 以 通过 调用 误差 曲面 在 当前 点 w(Cz) 周 围 的 二 次 逼近 来 实现 。 然 后 从 去 
(4. 111) 可 以 发 现 应 用 于 突 触 权 值 向 量 wn) 的 调整 量 的 最 优 值 Awln) 由 下 式 给 出 : 

Aw” (a) = H'(n)g(n) (4.115) 
其 中 H~ (Cn) fe Hessian 和 矩阵 Hz) 的 道 ， 假 设 它 是 存在 的 。 式 (4. 115) 是 牛顿 法 的 核心 。 如 果 
代价 函数 名 ,Cw) 是 二 次 的 ( 式 (4. 109) 中 的 三 次 和 更 高 次 项 为 零 )， 那 么 牛顿 法 一 次 迭代 后 收 
敛 到 最 优 值 位 置 。 然 而 ， 牛 顿 法 对 多 层 感 知 器 的 有 监督 训练 的 实际 应 用 受到 三 个 因素 的 
阻碍 : 

。 牛顿 法 要 求 计 算 Hessian RERI H (za) ， 这 可 能 在 计算 上 需要 很 大 的 开销 。 

。 为 了 使 H-!(n) 是 可 计算 的 ，H(n) 必 须 是 非 奇 异 的 。 在 HCn) 为 正定 的 情况 下 ， 当 前 所 
w(z) 周 围 的 误差 曲面 可 以 描述 为 “ 凸 硫 状 ”。 遗 憾 的 是 ， 并 不 能 保证 多 层 感 知 俘 误差 
曲面 的 Hessian 和 矩阵 总 是 符合 这 样 的 描述 。 而 且 ， 还 有 Hessian 和 矩阵 秩 亏 损 的 潜在 问 
题 ( 即 并 不 是 所 有 的 H 的 列 都 线性 无 关 )， 这 是 由 于 网 络 训 练 问题 中 国有 的 病态 性 所 
XAJ (Saarinen 等 ，1992); 这 只 会 使 得 计算 任务 更 加 困难 。 

。 当代 价 函 数 多 , Cw) 是非 二 次 的 时 候 ， 和 牛顿 法 的 收敛 性 得 不 到 保证 ， 这 使 得 它 不 返 合 于 
VA E ERAI AY o 
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为 了 克服 其 中 某 些 困难 ， 我 们 可 以 使 用 拟 牛 顿 法 ， 它 仅仅 要 求 梯度 向 量 g 的 一 个 估计 值 。 
这 种 牛顿 法 的 修正 不 经 过 计算 抢 阵 的 逆 而 直接 得 到 逆 和 矩阵 H 的 正定 估计 。 通 过 使 用 这 样 的 佑 
计 ， 拟 牛顿 法 保证 在 误差 曲面 上 是 下 降 的 。 然 而 ， 我 们 仍然 有 一 个 OW’) 的 计算 复杂 度 ， 其 
PW 是 权 值 向 量 w 的 大 小 。 因 此 拟 牛 顿 法 在 计算 上 是 不 可 行 的 ， 除非 对 一 个 非常 小 规模 的 神 
经 网 络 进 行 训练 。 关 于 拟 和 牛顿 法 将 在 本 节 后 面 讨论 。 

另 一 类 型 的 二 阶 最 优化 方法 包括 共 示 梯度 方法 ， 它 被 认为 是 一 种 介 于 最 速 下 降 法 和 牛顿 法 
之 间 的 方法 。 使 用 共 斩 梯度 方法 的 动机 是 期 望 加 速 在 最 速 下 降 法 中 特别 缓慢 的 收敛 速度 ， 同 时 
避免 在 牛顿 法 中 要 求 对 Hessian 矩阵 的 估 值 、 存 储 和 求 逆 。 
共 轿 梯度 方法 

共 斩 梯 度 方 法 属于 人 所 共 知 的 共 斩 方 向 方法 的 二 阶 最 优化 方法 的 一 类 。 我 们 通过 考虑 二 次 
PR BX : 


iOS Sx" Ax — bx +c (4. 116) 


HRM RREF EKHE., Hs EAW 参数 向 量 ,， A 是 WXW IREE R, 
b 是 WX1 向 量 ,，c 是 标量 。 二 次 函数 f(x) 的 最 小 化 是 通过 赋予 x 如 下 唯一 值得 到 的 ， 
x* = A'b (4.117) 
这 样 f(x) 的 最 小 化 和 求解 方程 Ax" =b 的 线性 系统 就 是 等 价 问题 。 
给 定 抢 阵 A， 如 果 满 足下 述 条 件 ， 则 称 非 零 向 量 s(0) ,s(1),…,sCW 一 1) HRA A-H 
的 〔 即 在 矩阵 A 下 互 不 干扰 ): 





s'(n) As(j) = 0 对 所 有 n 关 J (4. 118) 
如 果 A SEPM, Ham FI APES. 
Gl 1 A-4 4 o RRRE x, 
为 了 解释 A-AA. RA 4. 20a 
Sra JB +E MI. AP Pras 
圆 轨迹 对 应 于 方程 (4. 116) 在 
x 一 Ee »x, |? / 
对 二 次 函数 f(x) 指 定 的 某 个 第 数值 的 图 形 。 x 
图 4. 20a 也 包括 一 对 关于 和 矩阵 A SEE Fa 
向 向 量 。 假 定 我 们 通过 变换 
v= A' x 
定义 一 个 新 的 与 x 相关 的 参数 向 量 v， 其 中 a) 
Al 是 A 的 平方 根 。 这 样 图 4. 20a PAL 4.20 ASEH ER. a) 二 维权 值 空间 的 椭圆 轨 
迹 就 被 变换 为 图 4. 20b 所 示 的 圆 形 轨迹 ， 迹 ; b) 椭圆 轨迹 到 圆 形 轨 迹 的 变换 


相应 地 ， 图 4. 20a 中 A- 共 轿 的 方向 向 量 对 也 被 转换 为 图 4. 20b 中 的 一 对 正 交 方向 向 量 。 E 
关于 A-BAT EREBERBECNBABARM. RATE LAA E HEIA HE A E E 
令 这 些 向 量 的 其 中 之 一 ， 比 如 s(0)， 用 其 余 W 一 1 个 向 量 的 线性 组 人 表示 如 下 : 


s(0) = > 
两 边 乘 以 A 并 用 As(0) 和 s(0) 作 内 积 得 到 7 
s (0)As(0) = ywsr(O)AsG) = 0 
然而 ， 有 两 个 原因 使 得 二 次 型 sr(0)As(0) 不 可 能 为 零 和 矩阵 A 是 被 假设 为 正定 的 ， 辣 量 s(0) 
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定义 为 非 零 。 因 此 可 以 得 出 A- 共 斩 的 回 量 s(0) ,s(1),…,sCW 一 1) 不 能 是 线性 相关 的 ;也 就 是 
说 ， 它 们 必须 是 线性 无 天 的 。 

对 于 一 个 给 年 的 A- SE 9G lal et s(0),s(1),…,s(W 一 1) 的 集合 ， 相 应 的 二 次 误差 函数 f(x) 
的 无 约束 最 小 化 共 轿 方 同 方法 定义 为 


x(n + 1) == x(n) + n(n)stn) n — 0 1 网 一 荆 C4. 119) 
其 中 x(0) 是 任意 的 开始 向 量 ，w(n) 是 由 
FÈ yn)stn)) = minf (x(n) + 9s(n)) (4. 120) 


定义 的 标量 (Fletcher, 1987; Bertsekas, 1995), 通过 选择 7 对 基 个 固定 的 二 寻找 使 师 数 f(x(n) 十 
7s(n)) 最 小 的 过 程 称 为 线 搜索 ， 这 表示 一 维 最 小 化 问题 。 

根据 式 (4. 118)，(4.119) 和 (4. 120)， 可 以 得 到 如 下 结果 : 

l. 由 于 A-SO SE a E800) 81), s(W 一 1) 线性 无 关 ， 它 们 组 成 w 的 向 量 空间 的 一 
HHE. 

2. 更 新 公式 (4. 119) 和 式 (4. 120) 的 线 最 小 化 导出 学 习 率 参数 相同 的 公式 ， 即 
_ Ss’ (n)Ae(n) 


yn) = SOA n= Ole W] (4. 121) 

其 中 e(n) 是 误差 向 量 ， 定 义 为 
eln) = x(n) — x" (4. 122) 
3. 从 任意 一 个 点 xCO WA, FMEA IAEA BER RBIER We PHS BM f(x) = 0 


的 最 优 解 x” 。 

共 斩 方 向 方法 的 主要 性 质 如 下 (Fletcher, 1987; Bertsekas, 1995): 

在 连续 的 迭代 中 ， 共 瑟 方向 方法 在 逐渐 扩张 的 线性 向 量 空间 上 最 小 化 二 次 函数 f(x)， 最 
终 和 包含 1(X) 的 全 局 最 小 值 。 

特别 地 ， 对 于 每 次 迭代 n, HERG RE x(n 十 1) 在 通过 某 个 任意 点 x(0) 并 且 由 A- 共 罗 的 向 
量 s(0),s(1),… ,s(n) 扩展 成 的 线性 向 量 空 间 9, 上 使 函数 f(x) 最 小 化 ， 表 示 为 


x(n+ 1) = arg minf (x) (4. 123) 
x= oD, 
HHS [a], 定义 为 
%, = {x(n)|x(n) = x0) + D} ys] (4. 124) 


HT PEE MERE. BRAS—TPA AM A-4 s(0),s(1),++ ,s(W—1) 集 
A, EXTEN PRN SRBRAT EA ORRBR A, MAAKMAP HT, MKB 
fx) 的 后 继 梯 度 向 量 的 AHERE GAD AA RHE, AUR ART. 
RE, BT n=0 之 外 ， 方向 向 量 的 集合 soD) 并 不 是 预先 指定 的 ， 相 反 它 是 在 该 方法 的 后 


继 的 步 又 中 串 行 决定 的 。 
首先 ， 定 义 残 差 作为 最 速 下 降 方 向 
rín) = b— Ax(n) (4. 125) 
进而 通过 rcn) 和 s(n 一 1) 的 线性 组 合 来 继续 ， 表 不 为 : 
s(n) = rln) + Bln)s(n—1), n= 1,2,.… ,WO—1 (4. 126) 


其 中 pw EREREN THIS. AAD Ae ASHI. TR PAR A, H 
将 结果 表达 式 和 s(n 一 1) 作 内 积 ， 然 后 求解 8(n) 的 结果 表达 式 ， 得 到 


s7 (n — 1) Ar(n) (4. 127) 


pena s'(n— 1)As(n— 1) 
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通过 式 (4. 126) 和 式 (4. 127)， 我 们 发 现 这 样 得 到 的 向 量 s(0),s(1),…,sC(W — 1) 确实 是 A- 共 恩 
的 。 

根据 递归 公式 (4. 126) 产 生 的 方向 回 量 依赖 于 系数 8(n)。 由 于 BC(mw) 目 前 的 表示 形式 ， 计 算 
B47) 的 公式 (4. 127) 需 要 矩阵 A 的 知识 。 出 于 计算 上 的 原因 ， 希望 不 利用 A 的 明显 知识 的 情况 
下 对 BCn) 进 行 计算。 这 样 的 计算 可 以 通过 两 个 不 同 公 式 中 的 一 个 得 到 (Fletcher, 1987); 

1. Polak-Ribiére 公式 ， 其 中 BCE RA: 
r (zi)CrCa) — r(n— 1)) 





0 r (n—1)r(n— 1) ona 
2. Fletcher-Reeves 公式 ， 其 中 Ain) LA: 
BCn) r "(n)r(n) (4,129) 


r’(n—1)r(n— 1) 
A T FE BG JE D EE T E STC BIR AR OF PE. Cw) 的 无 约束 最 优化 问 
题 ， 我 们 做 两 件 事 情 : 
© 用 一 个 二 次 孙 数 来 逼近 代价 函数 .Cw)。 也 就 是 说 ， 式 (4.111) 中 三 阶 和 更 高 阶 项 被 忽 
略 ， 这 意味 着 我 们 正在 盘 近 误差 曲面 上 的 一 个 局 部 最 小 值 。 在 这 个 基础 上 ， 比 较 式 
(4. 111) 和 式 (4. 116) ， 可 以 得 到 表 4. 2 显示 的 联系 。 


”用 公式 表示 在 共 轿 梯度 算法 中 系数 表 4.2 f(x) WE, (w) 之 间 的 对 应 
BO) AL nr) 的 计算 ， 使 得 仅仅 要 求 梯 二 次 函数 f(x) 代价 函数 多 sv Cw) 
度 信息 。 参数 向 量 x(n) 突 触 权 值 向 基 Cn) 
后 面 一 点 在 多 层 感 知 器 中 特别 重要 ， 因 为 梯度 向 量 Of Cx) /Ox 梯度 向 量 g= a Sav /Ow 
它 避 免 了 使 用 Hessian 矩阵 Hn), KEMAH fai We A Hessian 矩阵 H 
估 值 会 遭遇 严重 的 计算 困难 。 


当 没 有 Hessian MH Hn) 的 明显 知识 时 ， 为 了 计算 决定 搜索 方向 s(n) 的 系数 BOD, TY 
利用 式 (4. 128) 的 Polak-Ribiére 公式 或 者 式 (4. 129) 中 的 Fletcher-Reeves 公式 。 这 两 个 公式 都 
仅 包含 残 差 的 使 用 。 假 定 一 个 二 次 函数 ， 在 共 轿 梯度 方法 的 线性 形式 中 ，Polak-Ribiére 公 却 和 
Fletcher-Reeves 公式 是 等 价 的 。 另 一 方面 ， 在 非 二 次 代价 函数 的 情形 下 ， 它 们 不 再 等 价 。 

Yt FIER. SESE RAR Polak-Ribiere 形式 优先 于 该 算法 的 Fletcher-Reeves 
式 ， 针 对 这 个 问题 我 们 在 下 面 提供 启发 性 的 解释 〈Bertsekas，1995): HF RPT ARS. Cw) P= 
阶 与 更 高 阶 项 的 存在 和 线 搜索 中 可 能 的 不 精确 性 ， 所 产生 的 搜索 方向 的 共 生 性 逐渐 丧失 。 这 使 
得 生成 的 方向 向 量 s(n) 近似 正 交 于 残 差 rm) ， 在 这 种 意义 上 算法 可 能 陷入 “堵塞 "。 当 这 种 现 
象 出 现 的 时 候 ， 我 们 有 r(z) 一 r(* 一 1)， 在 这 种 情况 下 标量 8(z) 接 近 于 零 。 相 应 地 ， 方 回回 量 
s(n) 近 似 于 残 差 r(n)， 从 而 打破 堵塞 。 与 此 相反 ， 当 使 用 Fletcher-Reeves ARAR., HH 
梯度 算法 在 相似 的 条 件 下 继续 堵塞 。 

然而 ， 在 极 少 数 的 情况 下 ，Polak-Ribiere 方法 可 以 无 限 循环 下 去 而 不 收敛 。 值 得 庆生 的 
是 ，Polak-Ribiére 方法 的 收敛 可 以 通过 选择 

B= max{ fpr +0} (4. 130) 
得 到 保证 ， 其 中 Bor fe H ot (4. 128) 的 Polak-Ribiére 公式 定义 的 值 (Shewchuk，1994)。 如 采 
Bok 二 0， 利 用 式 (4. 130) 中 定义 的 6 的 值 等 于 重新 开始 共 轿 梯度 算法 。 重 新 开始 运算 等 于 遗 挟 最 
后 的 搜索 方向 并 且 在 最 速 下 降 方 向 上 重新 开始 。 

考虑 下 一 个 计算 参数 7(z) 的 问题 ， 它 决定 了 共生 梯 度 算 法 的 学 习 率 。 和 计算 8(n) 一 样 ， 
计算 mm) 的 首选 方法 是 避免 必须 使 用 Hessian 矩阵 Hln)。 回 忆 一 下 ， 基 于 式 (4. 120) 的 线 最 小 
化 导出 的 y(n) 的 公式 和 源 于 更 新 公式 (4. 119) 得 到 的 72) 计 算 公 式 相同 。 因此 需要 一 个 直线 搜 
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索 “，. 这 样 的 目的 是 对 7 最 小 化 医 数 包 ,(Cw 十 18) 。 也 就 是 说 ， 给 定 问 量 w 和 s 的 固定 值 ， 现 在 
的 问题 是 改变 7 使 得 中 数 最 小 化 。 随 者 7 了 的 变化 ， 和 目 变 量 w 十 办 在 ww 的 克 维 问 量 空间 中 还 出 
RAR., HERA “HARR”. ERRAR RAAE TARGE., E A H E E A AE HIAK 
TERRE HE MTT {x(n)}。 当 找到 令 人 满意 的 解 时 ， 直 线 搜索 被 停止 。 直 线 搜索 必须 在 
每 个 搜索 方 回 上 进行 。 

文献 中 提出 了 几 种 直线 索 搜 算 方 法 ， 并 且 选 择 --- 个 好 的 算法 是 重要 的 ， 因 为 它 对 被 能 人 其 
中 的 共 罗 梯度 法 的 性 能 具有 深远 的 影响 。 任 何 直 线 搜索 算法 都 有 两 个 阶段 (Fletcher, 1987): 

。 区 间 阶 段 ， 也 就 是 搜索 一 段 区 间 (bracket)( 即 包含 一 个 最 小 值 的 非 平凡 间隔 ); 

。 截 段 阶段 ， 在 这 个 阶段 中 ， 阶 层 被 截 成 段 ( 即 被 分 割 )， 因 此 产生 一 系列 长 度 越 来 越 小 

的 于 区 间 。 

现在 我 们 给 出 一 个 直接 处 理 这 两 个 阶段 的 曲线 拟 合 过 程 。 

DEn (四 表示 多 层 感知 器 的 代价 函数 ， 表 示 为 y 的 函数 。 假 设 各 (7) 是 严格 单 峰 的 (uni- 
modal)( 即 它 在 当前 点 wn) 的 附近 只 有 单一 的 最 小 值 ) 并 且 是 二 次 连续 可 微 的 。 我 们 党 直线 开 
始 搜 索 过 程 ， 直 到 求 出 满足 条 件 : 

Ea Cn) D Saw ps? D Exh) Bm <p <p (4. 131) 
ZENA m ms. yo WE 4.21 Brox. FE Cy) KE 7 的 连续 函数 ， 式 (4. 131) 摘 述 的 选择 保 
证 区 间 [7 mm] 包含 函数 各,(y) 的 一 个 最 小 值 。 (Rik PHBE. Op FEA IG. A A Aik Pe Be 
在 紧邻 最 小 值 的 区 间 是 抛物 线形 的 。 因 此 ， 可 以 使 用 反 抛 物 线 插值 法 (inverse parabolic inter- 
polation) 进行 分 段 (Press 等 ，1988)。 具 体 地 讲 ， 这 个 抛物 线 函 数 可 以 通过 三 个 初始 后 六、 
mys 拟 合 ， 如 图 4. 22 ras. 图 中 实 线 对 应 于 如, Cn), HR AAR oY RE IRIN. Sm 


ARBRE nv po p 的 抛物 线 的 最 小 值 点 。 在 图 4. 22 所 示 的 例子 中 ， 我 们 有 名 . (I<Eu Cp) 
Gav Crm ) Én Cio K 173 H a 代 蔡 得 到 新 的 区 间 L msm lo 通过 构造 一 条 通过 点 Mir Wer M 的 


抛物 线 重复 这 个 过 程 。 上 述 包 括 区 间 后 再 分 段 的 过 程 重复 多 次 ， 直 到 找到 一 个 足够 接近 名.(7) 
的 最 小 值 的 点 ， 此 时 直线 搜索 终止 。 
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图 4.21 直线 搜索 示意 图 图 4.22 反 抛 物 线 插 值 
Brent 方法 建立 刚才 所 述 的 三 点 曲线 拟 合 过 程 的 一 个 高 度 精练 的 形式 (Press , 1988). 
在 计算 的 任何 特殊 阶段 ，Brent PEERS. M BR 6 个 点 的 轨迹 ， 所 有 点 可 能 不 必 互 不 相同 。 
如 前 所 述 ， 擅 物 线 插值 试图 通过 这 些 点 中 的 三 个 。 为 了 使 得 这 个 插值 法 是 可 接受 的 ， 剩 下 的 三 
点 必须 满足 一 定 标 准 。 最 终结 果 是 一 个 鲁 棒 直 线 搜索 算法 。 
非 线性 共 辆 祁 度 算法 小 结 | 
MEBM CAAT EXRHRAFS ER A R AE V k Ep R AERE GED 
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次 ) 形式 所 有 需要 的 要 素 。 表 4. 3 给 出 了 该 算法 的 小 结 。 


表 4.3 用 于 多 层 感 知 器 有 监督 训练 的 非 线 性 共 思 梯 度 算法 小 结 


初始 化 
除非 权 值 向 量 w 的 先 验 知 识 是 可 用 的 ， 否 则 使 用 与 反 向 传播 算法 相似 的 过 程 选择 初始 值 w(0)。 


计算 


- 对 于 w(0)， 用 反问 传播 算法 计算 梯度 向 量 go), 

- © s(0)—r(0)=— g0). 

. 在 时 间 步 >， 用 直线 搜索 寻找 充分 最 小 化 思 , MEI 1d, TEER wA s, RP BRE, RAH 7 HBR. 
. 测试 决定 f(z) 的 欧 几 里 得 范 数 是 否 下 降 到 一 个 特定 的 值 之 下 ， 即 为 初始 值 | r(0) | 的 很 小 的 一 部 分 。 

- HRA Ee: 


On A Ww D 一 


wnt 1) = wn) n(n)s(n) 
6. wont 1), FAERIE REA E Be AR EE g(x 十 1)， 
7. 置 rn 十 1) 一 一 gln 十 1)。 
8. 用 Polak-Ribiére 方法 计算 Put): 
rint Dira DD) rm) 





Bln + 1) = maxi rr? (n)r(n) Á 
9. 7 lel el: 
s(n +1) = r(n+1) 4+ Bat Ist) 
10. Bn=nt+l, #453. 
停止 准则 。 当 下 述 条 件 满 足 时 结束 算法 ， 
| rm) || <e || r0 | 
其 中 是 一 个 指定 的 小 的 数 。 
拟 牛 轻 法 
重新 开始 讨论 拟 牛 顿 法 ， 我 们 发 现 这 基本 上 是 用 更 新 公式 : 
win 十 1) = wtn) y(n) s(n) (4, 132) 
表示 的 梯度 方法 ， 其 中 方向 向 量 s(n) 用 梯度 向 量 g(n) 定 义 为 ; 
s(n) =— S(n)g(n) (4. 133) 


矩阵 Si) 是 在 每 次 迭代 中 调整 的 正定 矩阵 。 这 样 做 是 为 了 使 得 方向 向 量 s(n) BE 
向 ， 即 
— (Æ BE /OW )' (D Ear / OW) 
拟 牛 顿 法 使 用 误差 曲面 的 二 阶 (曲率 ) 信息 ， 实 际 上 不 要 求 Hessian 和 矩阵 H WAR. XÑ 
过 使 用 两 次 连续 和 迭代 wa), wat DSR MEg, gat DREKA. $ 


q(n) = g(n+ 1) — g(r) (4. 134) 
和 
Aw(n) = w(n+ 1) — w(n) (4. 135) 
ie FE AY LA a sh : 
qin) = (2 8(n)) awo) (4. 136) 


得 到 曲率 信息 。 特 别 地 ， 给 定 W 个 线性 独立 的 权 值 增 量 Aw(0) ,Aw(1),…,Aw(W 一 1) 和 各 自 
的 梯度 增 量 q(0) ,9q(1) ,…;,q( 太 一 1), 可 以 逼近 Hessian 矩阵 再 如 下 : 
H =~ [q(0).q(1),°*:.qCW — 1) JLAw(0) ,Aw(1) t, AwCW 一 1) }° (4. 137) 
tA MB Hessian PEM F: 
H- =~ [Aw(0),Aw(1),°**,AwCW — 1) JEL q(0) qal), QT 一 1) |" (4.138) 
当代 价 函 数 名 ,(w) 为 二 次 函数 的 时 候 ， 式 (4. 137) 和 式 (4. 138) 是 精确 的 。 
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在 最 常用 的 一 类 拟 牛 顿 法 中 ， 和 矩阵 Stn 十 1) 由 它 先前 的 值 SC(n)， 向 量 Aw(n) 和 qln) 使 用 
如 下 的 递归 算式 得 到 (Fletcher, 1987; Bertsekas, 1995): 
Sin +1) = Sin) + AWD Aw! nd) _ Sga GSC) 


qd (n)q(n) g (n)S(n)q(n) 
EMLA (n)S(n) qn) JLv(n) v7 (n) | (4.139) 
其 中 
a eee a Ter en 
F H. 
OKEn <1, 对 于 所 有 nn (4. 141) 


该 算法 由 任意 定义 的 正定 矩阵 SC(0) 进 行 初始 化 。 拟 牛顿 法 的 特殊 形式 参数 化 为 如 何 定 义 标 量 
£(n)， 如 下 面 的 两 点 所 示 (Fletcher, 1987): 
。 对 于 所 有 7 满足 ln) 二 0， 我 们 得 到 Davidon-Fletcher-Powell(DFP) 算法 ， 它 是 历史 
上 最 初 的 拟 牛 顿 法 。 
。 对 于 所 有 nn HB EG) =1, RTF Broyden-Fletcher-Goldfarb-Shanno(BFGS) 算法 ， 
EE ABBA A EE A BK 
fh A i PE Pn FE BS ET BS He BE 
Fe PV EEE UAL I SP PS RR. RA RIE A 
简要 讨论 CBertsekas, 1995); 
。 fb tie ANSE HE BE EE AR A EA Hessian E., AM, WFR Biwi Hessian 
矩阵 来 进行 下 一 步 计 算 。 所 以 ， 当 直线 搜索 是 精确 的 并 且 充 分 逼近 一 个 具有 正定 Hes- 
sian 气 阵 的 局 部 最 小 值 时 ， 拟 牛顿 法 趋 于 通 近 牛顿 法 ， 因 此 得 到 的 收敛 速度 比 共 扬 棉 
度 法 可 能 的 收敛 速度 更 快 。 
。 拟 牛 顿 法 不 如 共 思 梯 度 法 那样 对 在 最 优化 的 直线 搜索 阶段 的 精度 敏感 。 
。 除了 方向 向 量 $C) 计算 相关 的 矩阵 向 量 乘法 之 外 ， 拟 牛顿 法 还 要 求 存储 矩阵 S(n)。 最 后 
结果 是 拟 牛 顿 法 的 计算 复杂 度 是 DO(W:) 。 相 反 ， 共 斩 梯 度 法 的 计算 复杂 度 为 OC(W)。 
这 样 ， 当 维 数 W( 即 权 值 向 量 w 的 个 数 ) RAR, SPM EWE RR ATR EA 
有 更 大 的 优越 性 。 
正 是 因为 最 后 这 一 点 ， 实 际 上 拟 牛 顿 法 限于 小 规模 神经 网 络 的 设计 。 
Levenberg-Marquardt 方法 
归功 于 Levenberg(1994) 和 Marquardt(1963) 的 Levenberg-Marquardt 方法 ， 是 如 下 两 
种 方法 的 折 中 : 
。 牛顿 法 ， 在 局 部 或 者 全 局 最 小 点 附近 快速 收敛 ,但 也 可 能 发 散 ; 
。 梯度 下 降 ， 通 过 对 于 步 长 参数 的 正确 选择 保证 了 收敛 性 ， 但 收敛 缓慢 。 
具体 来 说 ， 考 虑 二 阶 函 数 FC(w) 的 最 优化 ， 且 令 g 为 其 梯度 向 量 ，H 为 其 Hessian OH. 
根据 Levenberg-Marquardt 方法 ， 作 用 于 参数 向 量 w 的 最 优 调整 量 Aw 定义 为 : 
Aw = [H +I] g (4. 142) 
其 中 工 为 和 百 具 有 相同 维 数 的 单位 矩阵 ，) 是 正则 或 负荷 参数 ， 用 来 强制 矩阵 AHAD 为 正 
定 的 ， 并 且 在 计算 过 程 中 是 完全 充分 条 件 的 。 还 需要 注意 的 是 式 (4. 142) 的 调整 量 Aw 是 由 式 
(4.115) 定 义 的 公式 的 小 的 修正 。 
有 了 这 样 的 背景 ， 考 虚 上 共有 一 个 单一 输出 神经 元 的 多 层 感 知 器 。 网 络 是 通过 最 小 化 如 下 的 
代价 函数 来 训练 的 : 
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Ea (W) = Ce — FG); w) (4. 143) 


其 中 (xG), dis, EIAS, FCx(D ;w) 是 网 络 实现 的 逼近 函数 ， 网 络 的 帘 触 权 值 按 某 种 
NFP ETE BOSE a E w, TR PRS. Cw) A RB BE A Hessian 矩阵 分 别 定义 为 ， 





_ BW) 1 Ke | OF (x(i) sw) 
BW) Se N auld FXG) sw) | a (4.144) 
各 
ee e So o a 
Ow 
-E DUO- FAD: w] SER (4. 145) 


因此 ， 将 式 (4. 144) 和 和 式 (4. 145) 代 入 到 式 (4 142), Levenberg-Marquardt 算法 每 一 步 迭 代 的 期 
望 调整 量 Aw 就 得 到 了 计算 。 

然而 ， 从 实际 的 角度 来 看 ， 式 人 4. 145) 的 计算 复杂 度 是 需要 考虑 的 ， 尤 其 是 当权 值 向 量 w 
的 维 数 高 的 情况 下 ; 这 里 的 计算 困难 是 由 Hessian iM HCw) 的 复杂 性 引起 的 。 为 了 减轻 这 一 
困难 ， 推 荐 方法 是 忽略 式 (4. 145) 右 边 第 二 项 ， 因 此 简单 地 用 下 式 交 近 Hessian 和 矩阵: 


= | 
Hw) ~ ND l (4. 146) 


这 个 逼近 可 以 看 成 是 偏 导 数 GF(w,x(71))/Bw 对 其 自身 的 外 积 在 训练 样本 上 的 平均 ; 相应 地 
这 可 以 被 称 为 Hessian 矩阵 的 外 积 通 近 。 这 一 通 近 的 使 用 在 Levenberg-Marquardt 算法 运行 于 
局 部 或 全 局 最 小 点 附近 时 得 到 了 证 明 。 

显然 ， 基 于 式 (4. 144) 的 梯度 向 量 和 式 (4.146) 的 Hessian 矩阵 的 Levenberg-Marguardt 算 
法 的 逼近 版 本 ， 是 非常 适用 于 非 线性 最 小 二 乘 估计 问题 最 优化 的 一 阶 方法 。 而 且 ， 由 于 这 些 方 
程 都 包含 了 在 训练 样本 上 的 平均 的 事实 ， 算 法 属于 批量 方式 。 

正则 参数 1 在 Levenberg-Marquardt 算法 工作 过 程 中 起 决定 性 作用 。 如 果 设 4 等 于 0， 则 
RA. 142) 的 公式 简化 为 牛顿 法 。 另 一 方面 ， 如 果 给 1 分 配 一 个 大 的 值 使 得 41 远大 于 Hessian 
矩阵 也 元 素 的 仁 ，Levenberg-Marquardt 算法 从 效果 上 作为 梯度 下 降 法 起 作用 。 根 据 这 两 个 观 
察 ， 在 算法 的 每 一 步 迭 代 中 ， 分 配给 4 Nine EB KARA Ae CHAD 的 正定 
形式 。 具 体 来 说 ， 对 于 4 的 选择 我 们 推荐 如 下 的 Marquardt 方法 (Press $, 1988): 

1. EERE n 一 1 计算 名,, Cw). 

2. 选择 一 个 适度 的 4 值 ， 比 方 说 4 二 10 。 

3. 解 方程 (4. 142) 得 到 迭代 步 n 的 调整 量 Aw 和 和 评价 多. (wt Aw) . 

4. 如 果 名 , (wt Aw) EEn (w)， 通 过 一 个 因子 10( 或 者 任意 其 他 大 因子 ) 来 增加 和 *， 转 第 
3 步 。 

5. AA, RE. (wt Aw) <E (w)， 通 过 因子 10 降低 和 ， 更 新 试验 解 w 一 w 十 Aw， 
转 第 3 步 。 

由 于 明显 的 原因 ， 终止 迭代 过 程 的 规则 是 必需 的 。Press (1998) 指出 ， 通 过 小 量 增加 
PL AR Sav Cw) A BM In] Bt w 的 调整 从 来 都 不 是 统计 有 意义 的 。 因 此 可 以 利用 这 一 具 深 刻 见 解 的 评 
论 来 作为 终止 规则 的 基础 。 

作为 最 后 的 评论 : 为 了 在 算法 的 每 一 步 评 估 偏 导数 OF(x; w)/ew， 可 以 利用 4.8 市 描述 
的 反 向 传播 的 方式 。 
在 线 学 习 的 二 阶 随机 梯度 下 降 

到 目前 为 止 ， 本 节 集 中 于 批量 学 习 的 二 阶 最 优 技术 。 从 这 里 开始 ， 我 们 将 注意 力 转移 到 在 
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线 学 习 的 二 阶 随机 梯度 下 降 方法 来 。 尽 管 这 两 类 技术 是 根本 不 同 的 ， 但 它们 具有 一 个 共同 的 
目的 : 


代价 函数 的 Hessian E (wb #) 所 和 包含 的 二 阶 信 息 被 用 米 提 高 监督 学 习 算 法 的 性 能 。 


对 于 第 4. 10 节 所 考 虚 的 最 优 退 火 在 线 学 习 算 法 性 能 扩展 的 一 个 简单 途径 是 将 式 (4. 60) 中 
的 学 习 率 参数 mln) 用 Hessian ERE H 的 逆 的 尺度 来 代 蔡 ， 如 下 所 示 : 


ee Wak = “To 4eGe- DG wb (4, 147) 
E B n eea Re A LSE LL 


更 新 估计 SA hessian EEH 梯度 向 量 
的 逆 的 退火 
将 (2) 用 新 的 项 一 H-: 来 代替 是 为 了 加 速 最 优 退 火 方式 下 在 线 算法 的 收敛 速度 。 这 里 假设 


Hessian #MABLARE AM, Hew :因此 可 以 预计 算 。 

“没有 免费 的 午餐 ”， 加 速 收敛 所 付出 的 代价 总 结 如 下 CBottou, 2007); 

1) 在 式 (4. 60) 的 随机 梯度 下 降 中 ， 算 法 每 步 迭 代 的 计算 花费 是 OW), BW 是 被 估计 的 
权 值 向 量 w 的 维 数 ， 而 相应 地 式 (4. 147) 中 二 阶 随 机 梯度 下 降 算法 每 步 迭 代 的 计算 代价 是 O). 

2) 对 于 由 式 (4. 147) 算 法 处 理 的 每 个 训练 样本 (x,d)， 算 法 需要 WX1 的 梯度 四 量 g 和 WXxW 
的 逆 和 矩阵 H AR, FP Se ARR. 

3) 在 通常 情况 下 ， 当 训练 样本 中 存在 某 种 形式 的 稀 跑 性 时 ， 自 然 的 步 又 是 开发 这 种 稀 豌 
性 以 达到 改善 算法 性 能 的 目的 。 遗 憾 的 是 ，Hessian 和 矩阵 瑞 是 一 个 典型 的 全 和 扎 阵 因此 不 是 稀 芯 
的 ， 这 就 排除 了 开发 训练 样本 稀疏 性 的 可 能 。 

为 了 克服 这 些 局 限 性 ， 我 们 可 以 求助 于 如 下 适 近 过 程 中 的 一 种 : 

1) øi: (Becker and LeCun，1989) 。 在 这 一 过 程 中 ，Hessian 矩阵 仅 有 对 角 元 素 被 
保留 ， 这 意味 着 道 和 矩阵 H 1! 同样 也 是 对 角 和 矩阵 。 由 和 矩阵 理论 可 知 ， 和 矩阵 乘积 Hg 将 由 形式 为 
hyg: 的 项 的 和 组 成 ， 其 中 hi; 是 Hessian 矩阵 H 的 第 i 个 对 角 元 素 ，g; 是 相应 的 梯度 g 的 元 
素 , i 二 1,2,…,W。 梯度 向 量 g 对 权 值 为 线性 的 ， 这 就 意味 着 逼近 二 阶 在 线 学 习 算 法 的 计算 复 
杂 度 是 OCW). 

2) 低 秩 逼近 ， (LeCun 等 ，1998)。 根 据 定义 ， 和 矩阵 的 秩 等 于 和 矩阵 的 线性 无 关 列 的 个 数 。 
给 定 一 个 Hessian 矩阵 H, HUSA (SVD) 为 Hessian 矩阵 H 的 低 秩 允 近 提供 了 一 个 重要 
程序 。 令 H 的 秩 记 为 p，H 的 秩 r 逼近 被 记 为 ww. HY r<p. Æ Hessian GRAB 
的 平方 误差 通过 Frobenius 范 数 来 定义 : 


e = tri (H— H,)’(H—H,) | C4, 148) 
其 中 tr[,] 表 未 方 括号 中 的 方 阵 的 迹 〈 即 对 角 元 素 的 和 ) 。 对 和 矩阵 HA, 作 SVD， 我 们 写 为 : 
H=V>)U" (4.149) 
和 
H, = Vò, U” (4. 150) 
其 中 正 交 和 矩阵 U 和 VV eM TAA EME a EEEE 
> 一 diaglar ha Ar 90500 ,0) (4. 151) 
定义 了 低 秩 遥 近 H, 的 奇异 值 。 新 的 方 阵 
H, = UŠ, Vv’ (4. 152) 


提供 了 对 Hessian 矩阵 H AYR) — RA r igit (Scharf, 1991). WMA, ER. 147) 的 在 线 学 习 
算法 中 利用 新 矩阵 H, 来 代替 Hessian 矩阵 H HAARR AR RRS T OWA OW ) 之 间 的 
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某 个 地 方 。 

3) BFGS & if: (Schraudolph 等 ，2007)。 正 如 本 节 前 面 所 指出 的 那样 ，BFGS 被 认为 是 
拟 牛 顿 法 的 最 好 形式 。 在 Schraudolph 等 的 2007 年 的 论文 中 ，BFGS 被 修改 为 全 记忆 和 有 限 记 
忆 版 本 ， 使 其 对 于 梯度 的 随机 逼近 变 得 可 用 。 这 一 修正 算法 为 在 线 凸 优化 提供 了 一 种 快速 、 可 
扩 缩 的 、 随 机 拟 牛 顿 过 程 。 在 Yu 等 (2008) H, BSGF 拟 牛 顿 法 和 其 有 限 记 忆 变 形 被 扩展 用 
HEAL SESE SCI Sh A he eK. 


4.17 卷 积 网 络 


到 上 前 为 止 ， 我 们 都 在 考虑 多 层 感知 器 算法 设计 和 相关 的 问题 。 本 节 重 点 讨论 多 层 感知 器 
本 身 的 结构 布局 问题 。 特 别 地 ， 我 们 描述 一 类 特定 的 通称 为 卷 积 网 络 的 多 层 感知 器 ， 它 对 于 模 
式 分 类 非常 适合 。 这 些 网 络 的 提出 所 隐 含 的 思想 受到 了 神经 生物 学 的 启发 ， 可 以 回潮 到 Hubel 
and Wiesel(1962, 1977) 的 开创 性 研究 ， 该 研究 是 关于 猫 的 视觉 皮质 上 局 部 传 感 和 方位 选择 
神经 元 的 。 

一 个 卷 积 网 络 是 为 识别 二 维 形状 而 特殊 设计 的 一 个 多 层 感知 器 ， 这 种 二 维 形状 对 平移 、 比 
例 缩放 、 倾 斜 或 者 其 他 形式 的 变形 具有 高 度 不 变性 。 这 个 艰巨 的 任务 是 通过 如 下 网 络 在 监督 方 
式 下 学 会 的 ， 网 络 的 结构 包括 如 下 形式 的 约束 《LeCun and Bengio, 2003); 

1. 特征 提取 。 每 一 个 神经 元 从 上 一 层 的 局 部 接受 域 得 到 突 触 输入 ， 因 而 人 迫使 它 提 取 局 部 
特征 。 一 旦 一 个 特征 被 提取 出 来 ， 只 要 它 相 对 于 其 他 特征 的 位 置 被 近似 地 保留 下 来 ， 它 的 精确 
位 置 就 变 得 没有 那么 重要 了 。 

2. 特征 映射 。 网 络 的 每 一 个 计算 层 都 是 由 多 个 特征 映射 组 成 的 ， 每 个 特征 上 映射 都 是 平面 
形式 的 ， 平面 中 单独 的 神经 元 在 约束 下 共享 相同 的 突 触 权 值 集 。 这 种 结构 约束 的 第 二 种 形式 具 
有 如 下 的 有 益 效 果 : 

。 平移 不 变性 ， 强 迫 特征 映射 的 执行 使 用 具有 小 尺度 核 的 卷 积 ， 再 接着 用 一 个 sigmoid 函数 。 

。 自由 参数 数量 的 缩减 ， 通 过 权 值 共享 实现 。 

3. 子 抽 样 。 每 个 卷 积 层 跟 着 一 个 实现 局 部 平均 和 子 抽样 的 计算 层 ， 由 此 特征 映射 的 分 辩 
率 降 低 。 这 种 操作 具有 使 特征 映射 的 输出 对 平移 和 其 他 形式 的 变形 的 敏感 度 下 降 的 作用 。 

注意 ， 在 一 个 卷 积 网 络 所 有 层 中 的 所 有 权 值 都 是 通过 训练 来 学 习 的 。 此 外 ， 网 络 自动 地 学 
习 提 取 它 自身 的 特征 。 

图 4. 23 表明 由 一 个 输入 层 和 四 个 隐藏 层 与 一 个 输出 层 组 成 的 卷 积 网 络 的 体系 结构 布局 。 
这 个 网 络 被 设计 用 于 实现 图 像 处 理 〈 例 如 手写 体 的 识别 )。 输 入 层 由 28X28 TRAD RAM, 
接收 已 经 近似 处 于 中 心 位 置 和 在 大 小 上 规整 化 的 不 同 字符 的 图 像 。 然 后 ， 计 算 流程 在 卷 积 和 地 
抽样 之 间 交 苦 ， 如 下 所 述 : 

1. 第 一 隐藏 层 进行 卷 积 。 它 由 四 个 特征 映射 组 成 ， 每 个 特征 映射 由 24 X24 个 神经 元 组 
成 。 每 个 神经 元 指定 一 个 5X5 的 接受 域 ; 

2. 第 二 隐藏 层 实 现 子 抽样 和 局 部 平均 。 它 同样 由 四 个 特征 映射 组 成 ， 但 其 每 个 特征 映射 
由 12X12 个 神经 元 组 成 。 每 个 神经 元 具有 一 个 2X2 的 接受 域 ， 一 个 可 训练 系数 ,一 个 可 训练 
偏 置 和 一 个 sigmoid 激活 函数 。 可 训练 系数 和 仿 置 控制 神经 元 的 操作 点 ; 例如 ， 如 果 系 数 很 
小 ， 该 神经 元 以 拟 线性 方式 操作 。 

3. 第 三 隐藏 层 进行 第 二 次 卷 积 。 它 由 12 个 特征 映射 组 成 ， 每 个 特征 映射 由 8X8 个 神经 
元 组 成 。 该 隐藏 层 中 的 每 个 神经 元 可 能 具有 和 上 一 个 隐藏 层 几 个 特征 映射 相连 的 突 触 连 接 。 否 
则 ， 它 以 第 一 个 卷 积 层 相似 的 方式 操作 。 

4. 第 四 个 隐藏 层 进行 第 二 次 子 抽 样 和 局 部 平均 计算 。 它 由 12 个 特征 映射 组 成 ， 但 每 个 特 
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征 映射 由 4X4 个 神经 元 组 成 。 否 则 它 以 第 一 次 抽样 相似 的 方式 操作 。 

5. 输出 层 实现 卷 积 的 最 后 阶段 。 aa 26 Sat eee 每 个 神经 元 指定 为 26 个 可 能 的 
字符 中 的 一 个 。 跟 前 面 一 样 ， 每 个 神经 一 个 4X4 的 接受 域 。 

R te ta 我 们 得 到 一 个 “双人 尖塔 ”的 效果 。 也 就 是 在 
每 个 卷 积 或 抽样 层 ， 随 着 空间 分 辨 率 下 降 ， 与 相应 的 前 一 层 相 比特 征 映 射 的 数量 增加 。 卷 积 之 
后 进行 子 抽样 的 思想 是 受到 Hubel 和 Wiesel(1962) 首先 提出 的 “简单 的 ”细胞 后 面 跟着 “ 复 
杂 的 ”细胞 “的 概念 局 发 而 产生 的 。 

图 4. 23 所 示 的 多 层 感 知 髓 包含 近似 100 000 个 突 触 连接 ， 但 只 有 大 约 2 600 个 自由 参 
数 。 自 由 参数 在 数量 上 显著 减少 是 通过 权 值 共享 实现 的 。 机 器 学 习 的 能 力 因 而 下 降 ， 这 又 提 
高 了 它 的 泛 化 能 力 。 甚 至 更 值得 注意 的 事实 是 对 自由 参数 的 调整 通过 反 回 传播 学 习 的 随机 形 
式 来 实现 。 


输入 特征 映射 特征 映射 ”特征 映射 特征 映射 输出 
28 x 28 4@24 x 24 4@12x12  12@8x8 12@4x4 26@1 x | 





图 4.23 用 于 图 像 处 理 如 手写 体 识 别 的 卷 积 网 络 (经 MIT 出 版 社 授权 ) 


一 个 显著 的 特点 是 使 用 权 值 共享 使 得 以 并 行 形式 实现 卷 积 网 络 成 为 可 能 。 这 是 着 积 网 络 
a er et 的 男 一 个 优 感 。 | 
从 图 4. 23 的 卷 积 网 络 中 收获 了 以 下 两 方面 经 验 。 首 先 ， 通 过 结合 当前 任务 的 先 验 知识 约 
agra 一 个 可 调整 大 小 的 多 层 感知 器 能 够 学 习 一 个 复杂 的 、 高 维 的 和 非 线 性 的 映射 。 其 
次 ， 罕 触 权 值 和 偏 置 水 平 可 以 周而复始 地 执行 通过 训练 集 的 简单 反 向 传播 算法 进行 学 习 。 


4. 18” 非 线 性 滤波 


以 多 层 感 知 器 为 例 的 静态 神经 网 络 的 原型 应 用 是 结构 化 模式 识别 。 在 所 考虑 的 应 用 范围 
内 ， 本 章 所 讲述 的 素材 集中 于 结构 化 模式 识别 。 相 反 ， 时 序 模式 识别 或 非 线 性 滤波 要 求 对 随时 
间 演 化 的 模式 进行 处 理 ， 对 特定 时 刻 的 响应 不 仅 依赖 于 输入 的 当前 值 ， 还 依赖 于 以 前 的 值 。 简 
单 说 ， 时 间 是 有 序 的 量 ， 构 成 了 时 序 模式 识别 任务 中 学 习 过 程 的 重要 成 分 。 

对 于 动态 神经 网 络 来 说 ， 它 必须 以 一 种 或 另 一 种 形式 给 定 短 期 记忆 。 完 成 这 一 修改 的 一 
简单 途径 是 利用 时 间 延 迟 ， 时 间 延 迟 可 以 在 网 络 内 部 的 突 触 层 或 者 外 部 地 在 网 络 的 输入 层 上 执 
行 。 确 实 ， 神 经 网 络 中 时 间 延 迟 的 使 用 是 受 神 经 生物 学 启发 的 ， 因 为 众所周知 在 大 脑 中 信号 延 
述 是 无 所 不 在 的 ， 且 在 神经 生物 信息 处 理 中 起 着 重要 作用 (Braitenberg, 1967, 1977, 1986; 
Miller，1987) 。 时 间 可 以 通过 如 下 的 两 种 基本 途径 来 髋 人 神经 网 络 的 运行 中 : 

。 隐 式 表示 。 时 间 是 通过 其 作用 于 信号 处 理 的 效果 以 一 种 隐 售 方式 来 表示 的 。 例 如 ， 在 

神经 网 络 的 数字 执行 中 ， 输 入 信号 经 过 一 致 采样 ， 和 网 络 输入 层 相 连 的 每 个 神经 元 的 
突 触 权 值 序列 和 不 同 的 输入 样本 序列 作 卷 积 (convolved)。 这 样 ， 输 入 信号 的 时 间 结 
构 租 人 左 网 络 的 空间 结构 里 。 

。 显 式 表示 。 在 网 络 结构 内 时 间 由 它 自身 的 特定 表示 给 出 。 例 如 ， 蝙 蝙 的 回声 定位 系统 
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d(n) 


是 通过 发 射 短 的 频率 调制 CFM) 信号 ， 使 得 对 于 每 个 限制 在 FM 扫描 期 间 的 很 短 的 一 
个 时 间 段 的 频道 维持 相同 的 强度 等 级 。 被 一 组 听觉 接收 器 编码 的 几 个 不 同 频率 之 间 的 
多 种 比较 是 为 了 抽取 目标 物 的 准确 的 距离 信息 (Suga and Kanwal, 1995), 4M 4 
的 回声 在 经 一 段 未 知 时 延 以 后 被 接收 时 ， 一 个 具有 匹配 的 延迟 线 的 神经 元 〈 在 听觉 系 
统 ) 进行 响应 ， 从 而 提供 目标 范围 的 估计 值 。 
本 节 我 们 关心 时 间 的 隐 式 表达 ， 这 由 通过 外 部 方式 对 一 个 静态 神经 网 络 〈 如 多 层 感 知 器 ) 
提供 动态 属性 而 得 到 。 
图 4. 24 显示 了 非 线性 滤波 器 的 框图 ， 它 由 
WAT AR ARE RAM. RII NA saat 
神经 网 络 (如 多 层 感 知 器 )。 这 一 结构 对 于 处 y 
理 规 则 提供 了 明确 的 分 割 : 静态 网 络 对 应 于 非 © 
线性 ， 记 忆 对 应 于 时 间 。 具 体 来 说 ， 假 设 给 定 Relay 
了 具有 大 小 为 m 的 输入 层 的 多 层 感 知 器 。 那 
么 ， 在 一 个 对 应 的 途径 下 ， 记 忆 是 一 个 单 输入 
多 输出 (SIMO) 的 结构 ， 提 供 对 模拟 神经 网 图 4.24 建立 在 静态 神经 网 络 上 的 非 线 性 滤波 
络 的 输入 信号 的 za 个 不 同 延迟 版 本 。 
短期 记忆 结构 
图 4. 25 显示 了 离散 时 间 记 忆 结 构 的 框图 ， 它 由 p 个 等 同 片断 层 到 连接。 每 一 个 片断 由 一 
个 脉冲 响应 来 描述 ， 记 为 h(n)， 其 中 记 为 离散 时 间 。 片 断 数 p 称 为 记忆 的 阶 。 相 应 地 ， 由 
记忆 提供 的 输出 终端 个 数 〈 即 抽 头 (tap)) 为 p 十 1， 这 包含 了 从 输入 到 输出 的 直接 连接 。 因 
此 ， 用 m 记 静 态 神经 网 络 输 入 层 的 大 小 ， 我们 有 
m=ptl 
记忆 的 每 一 个 延迟 片断 的 脉冲 响应 满足 两 个 性 质 : 
。 因果 关系 ， 这 意味 着 对 于 "<0 有 A(z) 为 零 。 
。 归 一 性 ， 这 意味 着 D, Aw | 一 1 
在 这 个 基础 上 ， 我 们 将 h(n) 称 为 离散 时 间 记 忆 的 产生 核 。 
单元 1 单元 2 单元 p 
Oe ee 
输出 终端 
图 4.25 pp 阶 一 般 抽 头 延迟 线 记 忆 
可 以 用 深度 和 分 辨 率 来 衡量 记忆 结构 的 属性 (deVries and Principe，1992)。 设 记忆 结构 
中 总 的 脉冲 响应 为 Rover (mn)。 具 有 个 记忆 片断 ， 因 此 howwra MELK AC p PEK BA. 
相应 地 ， 记 忆 深 度 记 为 D， 定义 为 honnn) WA — E, 表示 为 
D = >) nh overt Cn) (4. 153) 
一 个 低 深度 D 的 记忆 只 能 将 信息 内 容 保持 较 短 的 时 间 ， 而 高 深度 的 记忆 则 能 保持 较 长 时 
间 。 记 忆 分 辨 率 记 为 RR 指 的 是 每 个 单位 时 间 内 记忆 结构 中 的 抽 头 数目 。 一 个 高 分 辨认 的 记忆 
结构 能 将 输入 的 序列 信息 保持 在 精 确 的 层次 上 ， 而 低 分 辨 率 的 记忆 结构 只 能 保持 在 粗糙 的 层次 
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上 。 对 于 固定 的 记忆 阶 p, WERE D 和 记忆 分 辩 率 及 的 乘积 是 一 个 常量 并 证 明 等 于 p。 

上 自然， 选择 不 同 的 产生 核 &z) 会 产生 不 同 的 次 度 D 和 记忆 分 辩 率 尺 ， 这 可 以 用 下 面 两 个 
记忆 结构 来 说 明 。 

1. 抽 头 延迟 线 记 忆 (tapped-delay-line memory)， 对 它 而 言 ， 产 生 核 被 简单 定义 为 单位 脉 
证 Cn), Bf 


hon) = 66m) = (0 0 (4. 154) 
0,7 ~ 0 
对 应 地 ， 总 的 脉冲 响应 是 
hoveral (N) = b(n 一 p) = n 7 p (4. 155) 
Ons p 


将 式 (4. 155) 代 人 式 (4. 153)， 产 生 记 忆 深 度 D 二 pp， 这 一 点 直观 上 是 满足 的 。 而 且 ， 每 个 时 间 
单元 内 只 有 一 个 抽 头 ， 因 此 ， 分 辩 率 R= 二 1， 深 度 一 分 辨 率 积 就 等 于 P. 
2. Gamma 记忆 ， 对 于 它 产生 核 被 定义 为 

ee Geer ee aa (4. 156) 
其 中 上 是 一 个 可 调 参 数 (deVries and Principe, 1992), WY h(n) REBUM 《 即 为 了 短期 记忆 
能 够 稳定 )， 我 们 需要 

a 

相应 地 ，Gamma 记忆 的 完整 的 脉冲 响应 为 


n=l „— 
h overa (72) = (= ’ snp C4, 157) 


Sof (2) 是 一 个 二 项 式 系数 。 对 于 变化 的 p 的 脉冲 响应 hoea Cn) BEST gamma 函数 的 被 积 函数 的 


离散 版 本 (deVries and Principe，1992) 一 一 因此 命名 为 “gamma 记忆 ”。 图 4.26 画 出 了 对 归 
一 后 脉冲 响应 ho (7) 对 于 变化 的 记忆 阶 的 图 ，jy 王 0.7。 TS 
度 ， 这 种 标 度 具有 将 hoea (7) 的 峰值 定位 在 n 二 p 一 1 的 效果 。 


l 


0.8 


0.2 





图 4.26 xt p= 1,2,3,4 和 jp 一 0.7 的 gamma 记忆 的 脉冲 响应 族 


已 经 证 明 Gamma 记忆 的 深度 为 p/x， 分 辩 率 为 uy， 再 一 次 深度 一 分 辩 率 的 习 积 为 po 相应 
地 ， 通 过 选择 小 于 单位 1 的 4 值 ，Gamma WI AREA MER, 但 是 御 竹 了 分 辨 率 。 对 于 特 
例 p=1, Gamma 记忆 衰减 为 通常 的 抽 头 延迟 线 记 忆 ， 那里 每 个 片断 简单 地 由 一 个 单位 时 间 延 
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RATAR. 
通用 短视 映射 定理 
图 4. 24 中 的 非 线 性 滤波 器 可 以 推广 为 图 4. 27 所 示 的 滤波 器 。 这 个 一 般 的 动态 结构 包含 两 
个 功能 模块 。 标 号 为 《六 } 产 :的 模块 表示 时 域 的 多 重 卷 积 ， 即 ， 一 个 并 行 运行 的 线性 滤波 占 组 。 
hi 是 从 一 个 较 大 的 实 值 核 集合 中 抽取 出 来 的 ， 每 一 个 都 代表 一 个 线性 滤波 器 的 脉冲 响应 。 块 
标号 为 W 的 模块 表示 静态 的 〈 即 无 记忆 的 ) 非 线 性 前 馈 网 络 ， 如 多 层 感 知 器 。 图 4. 27 中 的 结 
爸 是 一 个 通用 动态 上 映射 器 (universal dynamic mapper), Æ Sandberg and Xu(1997a) 中 证 明 对 
于 任何 平移 不 变 的 短视 映射 (myopic map), Æi 
度 的 条 件 下 利用 图 4. 27 描绘 的 结构 能 够 以 任意 精 
度 一 致 珊 近 。 要 求 一 个 映射 为 短视 的 等 价 于 “一 致 
衰减 记忆 ”; 这 里 假设 映射 是 因果 的 Ccausal), 3X 
意味 着 只 有 在 n=0 时 应 用 输入 信和 号， 才能 在 时 刻 
n=O 由 映射 产生 输出 信号 。 通 过 “平移 不 变 ”， 我 
们 是 指 如 果 y(n) 是 由 输入 xz(n) 产 生 的 映射 的 输出 ， 








那么 对 于 平移 输入 XxX(n 一 mo) 产生 的 上 映射 的 输出 就 是 hen 
y(n 一 no)， 这 里 时 间 位 移 n 是 一 个 整数 。Sandberg (线性 滤波 ) 网络 


and Xu(1997b) 中 进一步 证 明 了 对 单 变量 的 、 平 移 图 4.27 通用 短视 映射 定理 的 一 般 结构 
不 变 的 、 因 果 的 和 一 致 衰减 的 记忆 映射 ， 存 在 一 个 
Gamma 记忆 和 静态 神经 网 络 ， 它 们 的 组 合 能 够 以 任意 精度 一 致 逼近 该 映射 。 

现在 可 以 正式 地 将 通用 短视 映射 定理 描述 如 下 (Sandberg and Xu, 1997a, 1997b): 


任何 平移 不 变 的 短视 动态 映射 可 以 由 含有 两 个 功能 块 的 结构 任意 地 一 臻 逼近 : 一 组 线性 滤 
波 器 馈 给 一 个 静态 神经 网 络 。 


正如 已 经 指出 的 那样 ， 多 层 感知 器 可 以 作为 静态 网 络 的 规则 。 值 得 注意 的 是 当 输 入 输出 信 
号 是 固定 变量 数 的 函数 时 定理 得 到 保持 ， 例 如 在 图 像 处 理 中 。 
定理 的 实际 含义 

SEHR ARIE cha xX: 

1. 这 个 定理 为 NETtalk 提供 了 证 明 。NETtalk 是 将 英语 语音 转化 为 音素 的 大 规模 并 行 分 
布 式 网 络 的 第 一 个 示范 。 音 素 Cphoneme) 是 一 个 基本 的 语言 单位 〈Sejnowski and Rosen- 
berg，1987) 。 图 4. 28 显示 了 一 个 NETtalk 系统 的 示意 图 ， 它 建立 在 一 个 多 层 感知 融 的 基础 
上 ， 输 入 层 有 203 个 感知 ( 源 ) 节点 ， 隐 藏 层 有 80 个 神经 元 ， 输 出 层 有 26 个 神经 元 。 所 有 神 
经 元 都 使 用 sigmoid(logistic) 型 激活 函数 。 这 个 网 络 的 罕 触 连接 有 18 629 个 ， 每 个 神经 元 包 
含有 可 变 的 阔 值 。 阔 值 是 偏 置 的 负 值 。 这 个 网 络 使 用 标准 的 反 向 传播 算法 进行 训练 。 这 个 网 络 
有 7 组 输入 层 节 点 。 每 组 对 输入 文本 的 1 个 字母 进行 编码 。 从 而 每 次 将 7 个 字母 组 成 的 串 至 现 
给 输入 层 。 训 练 过 程 的 期 望 响应 是 和 ? 个 字母 窗口 中 央 的 一 个 《〈 即 第 4 个) 相 联系 的 正确 音 
素 。 另 外 6 个 字母 〈 在 中 间 字 母 两 边 各 3 个 ) 对 网 络 的 每 一 个 决策 来 说 提供 部 分 的 上 下 文 。 通 
过 一 个 字母 接着 一 个 字母 的 方式 使 文本 通过 窗口 。 在 处 理 的 每 一 步 中 ， 网 络 都 计算 一 个 音素 ， 
每 学 完 一 个 单词 后 ， 网 络 的 突 触 权 值 就 根据 计算 出 的 发 音 与 正确 的 发 音 的 接近 程度 进行 调整 。 
NETtalk 的 性 能 显示 出 和 观察 到 的 人 类 表现 的 相似 之 处 ， 可 总 结 为 以 下 几 点 ‘(Seinowski and 
Rosenberg, 1987): 
。 训练 遵守 有 力 的 规律 (power law). 
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© 网 络 学 习 的 单词 越 多 ， 它 的 泛 化 性 能 和 对 新 词 正 确 发 音 的 性 能 就 越 好 。 

。 当 网 络 的 罕 触 连接 被 破坏 时 ， 网 络 性 能 的 下 降 非 常 缓慢 。 

。 在 网 络 遭 到 破坏 以 后 ， 进 行 重新 学 习 ， 学 习 的 速度 要 比 原 始 训练 快 得 多 。 

NETtalk 出 色 地 说 明了 学 习 的 很 多 方面 的 微小 细节 ， 在 开始 的 时 候 ， 在 它 的 输入 模式 中 具有 大 
量 “ 先 天 ”的 知识 并 且 通 过 实践 逐渐 获得 将 英语 语音 转化 为 音素 的 能 力 。 





教师 
/k/ 
输出 神经 元 。 ”OOOOOO 
ee, 
隐藏 神经 元 
FFF TLS 
ee es 


图 4.28 NETtalk 网 络 结构 的 示意 图 


2. 通用 短视 定理 为 更 复杂 的 非 线 性 系统 模型 的 设计 建立 框架 。 在 图 4. 27 结构 前 端的 多 个 
卷 积 可 以 使 用 具有 有 限 冲 激 响 应 (FIR) 或 者 无 限 冲 激 响 应 CIR) 的 线性 滤波 器 来 实现 。 更 重 
要 的 是 ， 图 4. 27 的 结构 是 固有 稳定 的 (inherently stable) ， 因 此 线性 滤波 器 自身 是 稳定 的 。 因 
此 ， 在 建立 稳定 动态 系统 时 对 于 如 何 处 理 短期 记忆 和 无 记忆 非 线 性 性 ， 我 们 对 它们 的 作用 有 清 
晰 的 分 工 。 

3. 给 定 稳定 的 时 间 序 列 x1) ,xC2) ,TN), 通过 设 y(ny=a(n+1), 可 以 利用 图 4. 27 
的 通用 短视 映射 结构 来 建造 潜在 的 非 线 性 物理 规律 的 预测 模型 ， 该 模型 用 于 时 间 序 列 的 生成 ， 
而 不 管 规律 是 多 么 复杂 。 事 实 上 ， 未 来 的 样本 cnt) 起 着 期 望 响 应 的 作用 。 当 用 一 个 多 层 
感知 器 作为 图 4. 27 的 静态 网 络 来 实现 这 一 应 用 时 ， 为 网 络 的 输出 单元 提供 线性 神经 元 是 明智 
的 。 这 将 保证 在 预测 模型 的 动态 范围 上 没有 振幅 的 局 限 。 

4. 19 小 规模 和 大 规模 学 习 问 题 

在 本 章 和 本 书 其 他 地 方 ， 我 们 已 经 多 次 提 及 小 规模 和 大 规模 学 习 问 题 。 然 而 ， 我 们 设 有 严 
格 地 详细 说 明 这 两 类 监督 学 习 的 意义 。 本 节 的 目的 是 突出 将 两 者 区 分 开 的 统计 和 计算 方面 的 
VO 
结构 风险 最 小 化 

监督 学 习 的 可 行 性 依赖 于 下 面 的 关键 问题 ， 

由 NN 个 独立 同 分 布 的 样本 

Cx, yc ) (Xe CQ ) (CCXN yan) 
组 成 的 训练 样本 是 否 包含 了 构造 具有 良好 泛 化 性 能 的 机 器 学 习 的 足够 信息 ? 

这 一 基本 问题 的 答案 在 于 Vapnik(1982, 1998) 所 描述 的 结构 风险 最 小 化 《structural risk 
minimization) 方法 。 

为 了 讲述 这 一 方法 的 意义 ， 令 产生 训练 样本 的 自然 源 或 者 环境 表示 为 非 线性 回归 模型 

d = f(x) +e (4. 158) 
其 中 ， 和 第 2 章 中 引入 的 术语 一 样 ， 向 量 x 是 回归 量 ,， 标量 4 是 响应 ，e 是 解释 RED RE. BM 
f 是 未 知 的 ， 目 标 是 估计 它 。 为 了 实现 这 个 估计 ， 我 们 定义 期 望 风险 “ 即 总 体 -平均 代价 函数 ) 为 : 
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ee Ena] od — £00)? | (4. 159) 
其 中 期 望 是 对 于 回归 量 一 响应 对 (x，d) 联合 完成 的 。 在 第 5 章 ， 我 们 将 证 明 条 件 均值 估计 
廊 一 ELdjx] (4. 160) 


是 代价 函数 ] ( 户 的 最 小 点 。 相 应 地 ， 将 式 (4. 159) 定 义 的 代价 函数 的 最 小 值 写 为 J POD 
它 可 作为 能 达到 的 绝对 最 优 (absolute optimum)。 

决定 条 件 均值 估计 广 需 要 回归 量 x 和 响应 d 的 潜在 的 联合 概率 分 布 知识 。 然 而 ， 我 们 发 
现 这 一 知识 是 无 法 提供 的 。 为 了 解决 这 一 困难 ， 我 们 转向 机 器 学 习 来 寻找 可 行 的 解 。 例 如 ， 假 
设 选 择 单 层 多 层 感 知 器 来 做 机 器 学 习 。 令 函数 F(x;w) 记 为 神经 网 络 的 输入 输出 关系 ， 神 经 网 
络 的 参数 是 权 值 向 量 w。 然 后 通过 设 

| f(x) = F(x;w) (4. 161) 

来 做 第 一 个 逼近 (first approximation). 

相应 地 ， 将 模型 的 代价 函数 公式 化 为 : 


TO = Bea] d — Faw | (4. 162) 


其 中 ， 如 前 所 述 ， 期 望 是 联合 地 在 对 (xd) 上 完成 的 。 这 第 二 个 代价 函数 和 属于 原始 源 的 代 
价 函 数 J ,ww (了) 本 质 上 是 不 同 的 一 一 因此 对 它们 使 用 了 不 同 的 记号 。 将 式 (4. 161) 的 等 式 应 用 
于 神经 网 络 ， 我们 从 效果 上 限制 了 通 近 旺 数 (x;w) 的 选择 。 


今 


w" = arg minj Cw) (4. 163) 

为 代价 函数 J(w) 的 最 小 值 。 然 而 ， 实 际 上 其 至 即使 我 们 能 找到 最 小 值 W" ， 有 很 大 可 能 结果 代 
Br BCT OW" ) 将 比 最 小 化 代价 函数 Juu( 广 ) 更 坏 ， 我 们 可 以 写 为 ， 

JOR) > Jaa f) (4. 164) 

遗憾 的 是 ， 我 们 仍然 面 对 如 前 所 述 的 同样 的 实际 问题 ， 即 不 知道 Od) 的 内 在 联合 概率 

分 布 。 为 了 缓和 这 一 困难 ， 我 们 通过 利用 实验 风险 〈 即 时 间 平 均 能 量 函 数 ) 来 做 第 二 个 逼近 


(second approximation) 


Eu (Nsw) = sp >} (dn) — FOX) sw)) (4. 165) 
其 最 小 点 定义 为 
Wy = arg min @,,(N;w) (4. 166) 
显然 ， 最 小 化 代价 函数 J(Wn) 不 小 于 J(W* )。 事 实 上 ， 有 很 大 可 能 发 现 : 
J (Wn) SIP > Jal >? (4. 167) 


有 了 已 经 做 出 的 两 个 逼近 ， 我 们 可 以 惊讶 于 为 什么 我 们 需要 精确 计算 最 小 值 ww 。 在 解决 
这 一 问题 之 前 ， 让 我 们 检查 一 下 当 示 例 的 多 层 感知 器 的 隐藏 层 大 小 变 大 时 会 发 生 什么 情况 。 

回顾 一 下 第 4. 12 节 ， 多 层 感知 器 是 未 知 函 数 f(x) 的 通用 至 近 器 。 从 理论 上 ， 当 隐藏 层 大 小 
足够 大 时 ， 参 数 函 数 F(x;w) 能 以 任意 期 望 精度 逼近 未 知 函数 f(x)。 这 反 过 来 意味 着 IW ) 变 得 
接近 于 绝对 最 优 J ,aw (六 )。 然 而 ， 通 过 放大 隐藏 层 大 小 ， 我 们 可 能 连累 多 层 感 知 器 的 泛 化 能 
力 。 特 别 地 ， 作 为 放大 隐藏 层 的 结构 ， 误 差 TOW) Sena (f°) 有 可 能 增加 。 除 非 训 练 样本 
大 小 相应 地 增加 。 刚 刚 讨论 的 问题 是 Vapnik 结构 风险 最 小 化 的 本 质 内 容 ， 它 证 明了 “ 遂 近 一 信 
计 折 中 ”。 

为 了 详细 说 明 这 种 折 中 ， 今 过 剩 误 差 (J (Wh) 一 J awn(f" )) 分 解 为 如 下 两 项 ， 
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JW (4. 168) 
= So oS —S—S Se 
nt RS 逼近 误差 估计 误差 


在 这 一 经 典 的 误差 分 解 中 ， 以 下 几 点 是 值得 注意 的 : 

中 通 近 误差 提供 了 一 种 性 能 损失 的 度量 ， 该 损失 是 使 用 了 预 设 大 小 为 N 的 训练 样本 而 导 
SA. MA. rw. 依赖 于 训练 样本 ， 副 近 误 差 就 和 网 络 训练 的 评估 相关 。 

外 估计 误差 提供 了 一 种 性 能 损失 的 度量 ,该 损失 是 选择 由 通 近 肾 数 F(x,w) 刻画 的 模型 导 
臻 的。 而且， 由 于 六 是 给 定 回 归 量 x 时 响应 d 的 条 件 估计 ， 因 此 估计 误差 和 网 络 测试 的 评估 
FAK 

在 Vapnik HHE R., AV TT Ree ot VC 维 数 来 公式 化 的 ，VC 维 数 通常 记 为 
六 。 这 一 新 的 参数 ， 是 Vapnik-Chervonenkis dimension 的 缩写 (Vapnik and Chervonenkis, 
1971) ， 是 关于 用 机 器 学 习 实 现 的 二 但 分 类 图 数 族 的 容量 或 者 表达 能 力 的 测量 " 。 对 于 单 层 多 
层 感知 器 的 例子 ，VC 维 数 是 由 隐藏 层 的 大 小 决定 的 ; 隐藏 层 越 大 ，VC 维 数 BRK. 

为 了 将 Vapnik 理论 在 实际 背景 下 应 用 ， 考 虑 一 族 衣 套 通 近 网 络 函 数 

F, = {F(x;w)(w E W)}, k= 1,2,=,K (4. 169) 
使 得 我 们 有 
F, C F Cos Co Fx 
其 中 记号 性 意 为 “包含”。 相 应 地 ，i 的 各 个 子 集 的 VC 维 数 满足 条 件 
hy <h <r < hx 
AARE, F 的 大 小 是 机 器 容量 的 测量 。 从 现在 开始 ， 我 们 利用 去 (4. 169) 的 定义 来 代替 VC 维 数 。 

图 4. 29 fei it AAT te 22K Fa EY A K 
BURKS, 的 大 小 KK WE. XFA S ERA AE 
例子 ， 隐 藏 层 的 最 优 大 小 是 由 逼近 误差 和 估计 
误差 假设 具有 共同 值 的 点 来 决定 的 。 在 这 一 最 
优 条 件 达 到 之 前 ， 学 习 问 题 是 超 定 的 〈overde- 
termined) ， 这 意味 着 机 器 容量 对 于 包含 在 训练 
样本 中 的 细节 数量 而 言 太 小 。 在 最 小 点 之 外 ， 
学 习 问 题 称 为 欠 定 的 (underdetermined)， 这 意 
味 着 对 于 训练 样本 而 言 机 器 容量 太 大 。 逼近 网 络 曙 数 大 小 大 
计算 考 虚 图 4.29 随 大 小 天 的 变化 逼近 和 倍 计 误 差 的 变化 

MARMARA 〈 例 如 单 层 多 层 感 知 器 ) 必须 是 可 控 变 量 ,， 使 得 它 能 够 被 自由 地 调整 以 达到 
对 从 未 出 现 过 的 数据 的 最 好 测试 性 能 。 另 一 个 可 控 变 量 是 用 于 训练 的 样本 个 数 。 为 了 增加 监督 
训练 过 程 的 实际 真实 性 ，Bottou(2007) 通过 考虑 一 个 新 的 可 控 变 量 来 介绍 计算 代价 。 这 个 新 
的 可 控 变量 就 是 最 优 精确 度 。 

在 实际 中 ， 计 算 最 小 值 Wn 的 任务 可 能 会 产生 很 大 开销 。 而 且 ， 在 满意 的 网 络 设计 讨论 的 
进程 中 ,我们 通常 做 多 个 逼近 。 然 后 ， 假 设 我 们 选 定 一 个 由 权 值 向 量 wx 刻画 的 网 络 模型 ， 它 
和 Wn 不 同 ; 这 样 做 ， 我 们 将 给 出 第 三 个 ， 也 是 最 后 一 个 通 近 。 例 如 ， 由 于 计算 时 间 的 限制 ， 
在 线 学 习 算 法 可 以 在 收敛 远 未 到 达 之 前 终止 。 在 多 数 情形 下 ，wxw 是 满足 下 述 条 件 的 次 优 和解: 

Ea Ni wn) S EavCN3 Wn) + (4. 170) 
其 中 pp 组 成 了 一 个 新 的 可 控 参数 ; 它 提供 了 对 于 计算 精确 度 的 测量 。 

受 这 一 实例 的 启发 ， 现 在 我 们 有 了 一 个 比 结构 风险 最 小 化 方法 遇 到 的 更 复杂 的 问题 。 具 体 

地 说 ， 现 在 必须 调整 三 个 变量 : 
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。 网 络 模型 〈 例 如 ， 多 层 感 知事 中 隐藏 神经 元 个 数 ) 。 

。 训练 样本 个 数 。 

。 最 优 精确 度 〈 例 如 ， 过 早 地 终止 对 最 小 值 Wx 的 计算 并 选 定 次 优 解 W). 

为 了 达到 最 好 的 测试 性 能 ， 必 须 满足 预算 约束 ， 这 定义 了 能 用 的 最 大 训练 样本 个 数 以 及 我 们 
能 提供 的 最 大 计算 时 间 。 在 实际 的 背景 下 ， 我 们 因此 面 对 相 当 复 杂 的 折 中 。 为 了 解决 这 一 约束 最 
优 问 题 ， 折 中 将 依赖 于 我 们 是 否 首先 达到 样本 数量 的 限制 或 者 计算 时 间 的 限制 。 这 两 个 限制 的 折 
中 是 主动 预算 约束 ， 依 赖 于 监督 学 习 过 程 是 小 规模 的 还 是 大 规模 的 ， 如 我 们 下 面 要 讨论 的 那样 。 
定义 

根据 Bottou(2007)， 小 规模 和 大 规模 问题 可 以 分 别 定 义 如 下 : 

ZLI. 小 规模 学 习 

一 个 监督 学 习 问 题 称 为 小 规模 的 ， 此 时 训练 样本 的 大 小 〈 即 样本 的 个 数 ) FRI FEL 
程 的 主动 预算 约束 。 

SO. 大 规模 学 习 

一 个 监督 学 习 问 题 称 为 大 规模 的 ， 此 时 计算 时 间 是 强加 于 学 习 过 程 的 主动 预算 约束 。 

换 名 话说， 主动 预算 约束 Cactive budget constraint) 将 两 个 学 习 问 题 区别 开 。 

作为 说 明 小 规模 学 习 问 题 的 一 个 例子 ， 我们 可 以 给 出 自 适 应 平衡 装置 (adaptive equalizer) 
的 设计 ， 其 目的 是 为 了 补偿 不 可 避免 的 在 信道 传输 过 程 中 信息 数据 的 失真 。 起 源 于 随机 梯度 下 
隆 并 在 第 3 章 中 讨论 过 的 LMS 算法 被 广泛 应 用 于 解 这 一 在 线 学 习 问 题 (Haykin, 2002). 

作为 说 明 大 规模 学 习 问 题 的 一 个 例子 ， 我们 可 以 给 出 支票 读 取 机 的 设计 ， 其 训练 样本 是 由 联 
合 对 组 成 的 ， 每 个 样本 描述 一 个 特定 的 {图 像 ， 数 额 ) 对 ， 其 中 “图 像 ” 是 关于 支票 的 而 数额 是 
关于 支票 上 钱 的 数量 的 。 这 样 的 学 习 问 题 由 于 如 下 几 点 具有 复杂 的 强 结构 CBottou, 2007); 

。 区 域 分 割 

© 文字 分 割 

。 文字 识别 

。 句法 解释 

4. 17 节 介 绍 的 包含 可 微 单 元 的 卷 积 网 络 ， 通 过 几 个 星期 的 随机 梯度 算法 的 训练 ， 被 广泛 
用 于 解 这 一 挑战 性 学 习 问 题 (LeCun 等 ，1998) 。 事 实 上， 这 一 新 型 网 络 已 经 从 1996 年 开始 在 
工业 界 广泛 应 用 ， 处 理 数 十 亿 文 标 。 
小 规模 学 习 问 题 

只 考虑 小 规模 学 习 问 题 时 ， 机 器 学 习 的 设计 者 可 以 得 到 以 下 三 个 变量 : 

。 训练 样本 个 数 ，N 

。 允 近 网 络 函 数 族 下 的 容许 大 小 

© 式 (4.170) 引 入 的 计算 误差 p 

当主 动 预算 约束 是 样本 个 数 时 ， 第 一 种 学 习 问 题 的 设计 选择 如 下 所 述 CBottou, 2007): 

。 通过 使 得 N 大 到 预算 允许 的 最 大 来 减少 估计 误差 。 

。 通过 令 计 算 误 差 o 二 0 来 减少 最 优化 误差 ， 这 意味 着 令 Wn 二 Wn。 

。 调整 多 的 大 小 到 认为 是 合理 的 程度 。 

当 o=0 时 ， 如 图 4. 29 所 示 的 包括 荧 近 估计 折 中 的 结构 风险 最 小 化 方法 ， 对 于 处 理 小 规模 
学 习 问 题 是 足够 的 。 
大 规模 学 习 问 题 

正如 前 面 所 指出 的 那样 ， 大 规模 问题 的 主动 预算 约束 是 计算 时 间 。 在 处 理 这 第 二 类 学 习 问 
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题 时 ， 我 们 面 对 更 复杂 的 折 中 ， 因 为 现在 必须 对 计算 时 间 TAE. 
在 大 规模 学 习 问 题 中 ， 过 独 误差 是 由 差 (J (Wn) 一 J wa(f")) 定义 的 ， 它 可 以 分 解 为 如 


下 的 三 项 (Bottou, 2007): 


TOWN) — Jaa CPD = J Gn) ~ In) EI Cy) — TOD AI WY — aa CA) 


过 剩 误差 


最 优化 误差 


逼近 误差 估计 误差 


(4. 171) 


Ba KATAR T EA RA ATT RE) ED AUER A A BEA Y E ATER. EER 
(4. 171) 的 第 一 项 将 大 规模 学 习 问 题 和 小 规模 学 习 问 题 区 别 开 来 。 这 一 新 的 称 为 最 优化 误差 的 


项 显然 和 计算 误差 p TAK. 


图 4. 29 中 逼近 误差 边界 的 计算 对 于 小 规模 问题 来 说 是 很 好 理解 的 〈 利 用 VC BR). i 
的 是 ， 当 这 一 公式 用 于 大 规模 学 习 问 题 时 ， 包 含 在 公式 中 对 边界 的 约束 是 很 不 好 理解 的 。 在 这 
些 更 困难 的 情形 下 ， 用 收敛 速率 而 不 是 边界 对 式 (4. 171) 进 行 分 析 是 更 富有 成 效 的 。 

要 求 对 式 (4. 171) 中 的 三 项 的 和 通过 调整 如 下 可 提供 变量 来 最 小 化 : 


h 样本 个 数 ， N, 
。 JHU RRF 的 容许 大 小 天 。 
。 计算 误差 c， 它 不 再 是 0。 


做 这 样 的 最 小 化 分 析 是 极为 困难 的 ， 因 为 计算 时 间 工 实际 上 依赖 于 所 有 三 个 变量 N, FA p。 
为 了 解释 这 一 依 束 性 ， 我 们 给 误差 e 分 配 一 个 小 的 值 来 减少 最 优化 误差 。 为 了 实现 这 一 减少 ， 遗 慑 
的 是 ， 我 们 必须 增加 N， 甩 或 两 者 ， 它 们 中 的 任 一 个 都 将 具有 对 逼近 和 合计 误 差 的 不 恨 影 啊 。 


虽然 如 此 ， 在 某 些 情形 下 ， 可 能 计算 
“4 PRASMN 都 上 升 时 三 个 误差 倾 回 
于 下 降 的 指数 。 类 似 地 ， 也 可 以 计算 当 p 
下 降 且 凶 和 NN 都 上 升 时 计算 时 间 工 上 升 的 
指数 。 将 这 些 片 断 放 到 一 起 ， 就 有 了 应 付 
大 规模 学 习 问 题 折 中 的 盘 近 解 的 元 素 。 更 
重要 的 是 ， 在 最 后 的 分 析 中 ， 折 中 依赖 于 
最 优化 算法 的 选择 。 

图 4. 30 给 出 了 对 大 规模 学 习 问 题 ， 
采用 不 同 最 优化 算法 ，logp Mia logT 的 
变化 曲线 。 这 个 图 中 给 出 了 三 类 最 优化 
算法 ( 即 坏 的 、 中 等 的 、 好 的 ) 例子 ， 相 
应 地 这 些 算法 包含 了 随机 梯度 下 降 〈 即 在 
RS). BRE PRE CBee). Sir 
梯度 下 降 〈 即 BFGS 类 或 其 扩展 的 拟 牛 顿 
最 优化 算法 )。 表 4.4 总 结 了 这 三 类 最 优 
化 算法 之 间 的 不 同 特征 。 

现在 我 们 可 以 总 结 从 本 节 中 给 出 的 资 
料 中 得 到 的 关于 监督 学 习 的 消息 如 下 : 

小 规模 学 习 问 题 的 研究 已 经 有 了 良好 
的 发 展 ， 但 是 大 规模 学 习 问 题 的 研究 还 处 
在 发 展 的 蛙 期 阶段 。 


好 的 最 优化 算法 〈 超 线性 )， 
对 此 p 下 降 得 比 exp (-7) tR 


中 等 的 最 优化 算法 线性 )， 
对 此 p 下 降 和 exp 7) HD 









坏 的 最 优化 算法 ， 
Tite FEAT 





图 4. 30 ”计算 误差 p 和 计算 时 间 了 的 变化 图 ， 对 三 类 最 优 


化 算法 : 坏 的 、 中 等 的 、 好 的 (这 个 图 的 复制 得 
到 了 Dr. Leon Bottou 的 同意 ) 


RAA 三 种 最 优化 算法 统计 特性 的 小 结 ? 





算法 到 达 p 的 时 间 
a of) 
anm o( oe +) 
E a ol ue we)) 


YE: m， 输入 向 量 x 的 维 数 
N， 用 于 训练 的 样本 的 个 数 
p: 计算 误差 
这 个 表格 是 由 Bottou(2007) 编辑 的 。 
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4.20 小 结 和 讨论 


有 反 向 传播 算法 为 多 层 感知 器 的 训练 建立 了 一 个 计算 有 效 和 有 用 的 算法 。 这 一 算法 的 名 字 来 
源 于 这 样 的 事实 : 其 代价 函数 关于 网 络 自由 参数 〈( 突 触 权 值 和 偏 置 的 偏 导数 (性 能 测试 ) 是 
由 误差 信号 (由 输出 神经 元 计算 ) 通过 网 络 一 层 一 层 反 向 传播 来 决定 的 。 这 样 做 ， 算 法 以 一 种 
最 精致 的 方式 解决 了 信用 分 配 问题 。 算 法 的 计算 能 力 基 于 两 个 主要 贡献 : 
© 局 部 方法 ， 更 新 多 层 感 知 器 的 突 触 权 值 和 偏 置 。 
。 计算 代价 函数 高 效 的 算法 ， 用 于 计算 代价 函数 对 这 些 自由 参数 的 所 有 偏 导 数 。 
训练 的 随机 和 批量 方法 
对 于 训练 数据 的 一 个 给 定 回 合 ， 反 向 传播 算法 以 两 种 方式 中 的 一 种 来 操作 : 随机 或 者 批 
量 。 在 随机 方式 中 ， 网 络 的 所 有 神经 元 的 突 触 权 值 都 是 在 一 个 模式 接着 一 个 模式 的 逐次 方式 上 
调整 的 。 因 此 ， 在 计算 中 使 用 的 误差 曲面 梯度 向 量 的 估算 值 在 本 质 上 是 随机 的 一 一 因此 有 了 
“随机 有 反 向 传播 ”的 名 称 。 男 一 方面 ， 在 批量 方式 中 ， 对 所 有 突 触 权 值 和 偏 置 的 调整 是 在 一 个 
回合 接 一 个 回合 的 基础 上 进行 的 ， 这 样 在 计算 中 使 用 梯度 癌 量 更 精确 的 估计 。 无 论 它 的 缺 扣 如 
何 ， 反 向 传播 学 习 的 随机 形式 是 神经 网 络 设计 中 使 用 频率 最 高 的 ， 特 别 是 在 大 规模 问题 上 。 为 
了 得 到 最 好 的 结果 ， 需要 小 心地 调整 算法 。 
模式 分 类 和 非 线 性 滤波 
多 层 感知 器 设计 中 的 特定 细节 问题 自然 依赖 于 有 关 具 体 的 应 有 用。 然而， 我们 可 以 做 出 两 种 
区 分 : 
1. 在 涉及 非 线性 可 分 模式 的 模式 分 类 中 ， 网 络 中 的 所 有 神经 元 都 是 非 线 性 的 。 这 个 非 线 
性 是 通过 使 用 sigmoid 函数 来 获得 的 ， 该 函数 的 两 种 通常 用 法 是 〈a) logistic HX, Al 
(b) 双 曲 正切 函数 。 每 个 神经 元 负责 在 决策 空间 中 产生 它 自 己 的 超 平面 。 通 过 一 个 监 
督学 习 过 程 ， 网 络 中 由 所 有 神经 元 形成 的 超 平 面 的 组 合 被 反复 调整 ， 使 其 对 来 自 不 同 
类 且 未 出 现 过 的 模式 分 类 时 ， 平均 分 类 误差 最 小 。 对 于 模式 分 类 来 说 ， 随 机 反 向 传播 
算法 是 实现 训练 最 广泛 使 用 的 算法 ， 特 别 是 在 大 规模 问题 上 (例如 光学 字符 识别 )。 
2. 在 非 线性 滤波 中 ， 多 层 感知 器 的 输出 的 动态 范围 应 该 大 到 足以 包含 过 程 值 ; 在 这 样 的 
背景 下 ， 线 性 输出 神经 元 的 使 用 是 最 明智 的 选择 。 对 学 习 算 法 ， 我们 提供 如 下 的 观察 
事实 : 
。 在 线 学 习 比 批量 学 习 慢 得 多 。 
。 假设 批量 学 习 是 期 望 的 选择 ， 标 准 反 向 传播 算法 比 共 瑟 梯度 方法 慢 。 
本 章 讨论 的 非 线性 滤波 方法 ， 集 中 于 利用 静态 网 络 ， 以 多 层 感 知 器 为 例 ; 输入 信号 通过 一 
个 提供 了 时 间 的 短期 记忆 结构 〈 如 抽 头 延迟 线 或 者 gamma 滤波 器 ) MATS RRA es. MAT 
间 是 滤波 的 重要 一 维 。 在 第 15 章 ， 我 们 将 再 次 讨论 非 线 性 滤波 器 的 设计 ， 在 该 章 中 反馈 作用 
于 多 层 感 知 器 ， 从 而 将 之 转化 为 循环 神经 网 络 。 
小 规模 和 大 规模 学 习 问 题 
一 般 来 说 ， 在 机 器 学 习 问 题 的 研究 中 出 现 三 种 误差 : 
1. 逼近 误差 ， 这 是 在 给 定 训练 样本 的 固定 大 小 N 后 ， 由 训练 神经 网 络 或 者 机 器 学 习 所 招 
致 的 误差 。 
2. 估计 误差 ， 这 是 在 机 器 的 训练 完成 后 ， 用 以 前 没有 出 现 过 的 数据 测试 其 性 能 所 招致 的 
误差 ， 从 效果 上 而 言 ， 佑 计 误 差 是 泛 化 误差 的 妨 一 个 途 征 。 
3. 最 优化 误差 ， 这 是 对 于 预先 给 定 的 计算 时 间 本 来 说 ， 训 练 机 器 的 计算 精确 度 所 引起 的 。 
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在 小 规模 学 习 问 题 中 ， 我 们 发 现 主 动 预算 约束 是 训练 样本 大 小 ， 其 隐 含 意义 在 于 最 优化 误 
差 实际 上 通常 是 零 。 因 此 结构 风险 最 小 化 的 Vapnik 理论 对 于 处 理 小 规模 学 习 问 题 来 说 是 足够 
的 。 另 一 方面 ， 在 大 规模 学 习 问 题 中 ， 主 动 预算 约束 是 可 用 的 计算 时 间 TT， 此 时 最 优化 误差 自 
身 起 着 关键 的 作用 。 特 别 地 ， 学 习 过 程 的 计算 精确 度 以 及 因此 而 来 的 最 优化 误差 受到 用 于 求解 
学 习 问 题 的 最 优化 算法 类 型 的 巨大 影 啊 。 


注释 和 参考 文献 


l. sigmoid 函数 的 图 形 是 “s” 形 的 ; Menon (1996) 对 两 类 sigmoid HBT SRA HO : 

。 简单 sgmoid， 定 义 为 渐进 有 界 的 和 完全 单调 的 单 变 量 奇 函数 。 
。 双 曲 sigmoid， 代 表 简 单 sigmoid 的 一 个 真子 集 和 双 曲 正切 函数 的 自然 推广 。 

. 对 于 LMS 算法 的 特殊 情形 ,已 经 证 明 使 用 动量 常数 a 降低 学 习 率 参数 y 的 稳定 范围 ,并且 如 果 7 没有 被 适 
当 调 整 ， 这 样 会 导致 不 稳定 。 此 外 ， 错 误 调 整 也 随 a 的 增加 而 增长 ; 更 详细 的 论述 参见 Roy and Shynk 
(1990). 

3. 如 果 向 量 w* 不 比 它 邻 近 的 点 向 量 更 差 的 话 ， 向 量 w 被 称 为 输入 输出 是 数 下 的 一 个 局 部 最 小 值 ， 也 就 是 ， 
存在 一 个 < 使 得 


INS 


F(w" ) < Fw) 对 所 有 满足 上 w 一 w || <e Ww 
(Bertsekas，1995) 。 如 果 w 不 比 其 他 所 有 的 向 量 都 差 ， 则 称 它 为 函数 下 的 一 个 全 局 最 小 值 ; 也 就 是 ， 
Fiw") < F(w) 对 于 所 有 we R” 
其 中 是 w 的 维 数 。 
, 对 有 效 梯 度 估计 应 用 反 向 传播 的 首次 文献 记载 应 归功 于 Werbos(1974)。 在 第 4.8 节 中 给 出 的 材料 依照 
Saarinen 等 (1992) 给 出 的 处 理 方法 ; Werbos(1990) 对 该 题目 给 出 更 一 般 的 讨论 。 
. Battiti(1992) 回顾 了 计算 Hessian 矩阵 的 精确 算法 和 近似 算法 ， 并 有 特别 针对 神经 网 络 的 参考 文献 。 
.Muller (1998) 研究 了 将 式 (4.77) 的 退火 在 线 学 习 算 法 应 用 于 不 稳定 育 源 分 离 问 题 ， 这 说 明了 Murata 
(1998) 的 学 习 率 自 适应 控制 的 广泛 算法 适用 性 。 育 源 分 离 问 题 在 第 10 章 中 讨论 
. 式 (4. 80) 的 公式 遵循 根据 Sompolinski 等 (1995) 最 优 退 火 在 线 学 习 算 法 的 对 应 部 分 ， 用 于 处 理学 习 率 参数 
的 自 适 应 。 这 一 算法 的 实际 局 限 包 括 需 要 在 每 一 步 迭 代 计 算 Hessian 抢 阵 ， 并 且 需 要 知道 学 习 曲 线 的 最 小 
损失 。 
. 通用 通 近 定理 可 以 看 作 是 Weierstrass 定理 (Weierstrass, 1885; Kline, 1972) 的 自然 扩展 。 这 个 定理 表明 


任何 一 个 在 实 轴 闭 区 闻 上 的 连续 有 函 教 都 可 以 表示 成 该 区 间 上 绝对 一 致 收效 的 多 项 式 级 数 的 极限 。 


利用 多 层 感 知 器 来 表示 任意 连续 函数 的 优势 ， 这 一 研究 可 能 是 HechtNielsen(1987》 首先 关注 的 。 他 引用 了 
Sprecher(1965) 的 Kolomogorov 全 加 定理 的 改进 版 。 然 后 Gallant 和 White(1988) WEH, 在 隐藏 层 具 有 单 
调 “ 祭 孩 ” 挤 压 和 在 输出 无 挤 压 的 单 隐藏 居多 层 感 知 器 是 被 作为 “Fourier 网 络 ”的 特殊 情形 嵌 人 的 ， 它 的 
输出 产生 给 定 函 数 的 Fourier 级 数 通 近 。 然 而 ， 在 传统 的 多 层 感知 器 背景 下 ，Cybenko 第 一 次 严格 证 明了 一 
个 隐藏 层 足 够 一 致 融 近 任何 具有 在 单位 超 立 方 体 中 的 支 集 的 函数 :这 项 工作 作为 1988 伊利 诺 斯 大 学 的 技术 
报告 发 表 ， 一 年 之 后 作为 论文 发 表 (Cybenko，1988，1989)。 在 1989 年 ， 另外 两 篇 关于 多 层 感 知 器 通用 通 
近 器 的 论文 独立 发 表 了 ， 一 篇 由 Funahashi 完成 ， 另 外 一 篇 由 Hornik 等 (1990) 完成 。 对 后 来 关于 逼近 问 
题 的 贡献 ， 参 见 Light(1992b) 。 

. 交叉 验证 的 发 展 历史 在 Stone(1974) 中 有 记载 。 交 叉 验 证 的 思想 至 少 在 20 世纪 30 年 代 就 已 广泛 传播 ， 但 
该 项 技术 的 改进 是 在 20 世纪 60 年 代 和 70 年代 完成 的 。 该 领域 的 两 篇 重要 论文 是 Stone (1974) M Geisser 
(1975) ， 他 们 独立 并 且 几 乎 同时 提出 这 项 技术 。 这 项 技术 被 Stone 命名 为 “交叉 验证 方法 "， 而 Geisser Ml 
BWA “MMA STK”. 

10. Hecht-Nielsen(1995) 描述 了 一 种 复制 器 神经 网 络 ， 它 是 具有 三 个 隐藏 层 和 一 个 输出 层 的 多 层 感知 父 的 

形式 : 
。 在 第 一 和 第 三 隐藏 层 中 的 激活 函数 通过 双 曲 正切 函数 定义 ， 
go? Cv) = g” Cu) = tanhCv) 
Ep v FE EK EE HS oc IRR., 
。 在 第 二 隐藏 层 中 的 每 个 神经 元 的 激活 函数 由 
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=] 


oO 
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p” Cu) = So oo S 

给 出 ， 其 中 < 是 一 个 增益 参数 ，v 是 该 层 中 神经 元 的 诱导 局 部 域 。 函 数 p” ORR ARA N 

级 的 阶梯 激 福 图 数 ， 因 而 本 质 上 把 相关 神经 元 层 的 输出 向 量 转化 为 天 = 六 级 ， 其 中 是 中 间 隐 藏 层 的 

神经 元 数目 。 l 
* 输出 层 中 的 神经 元 是 线性 的 ， 它 们 的 激活 函数 定义 为 

gv) =v 

。 基于 这 种 神经 网 络 结构 ，Hecht-Nielsen 提出 了 一 个 定理 ,证 明 对 随机 输入 数据 向 量 的 最 佳 数据 压缩 是 
可 以 得 到 的 。 





. 共 罗 梯 度 方法 的 经 典 参考 文献 是 Hestenes and Stiefel(1952) MA. KTI ERA ÍT A TIE, 


见 Luenberger(1984) and Bertsekas(1995) 。 关 于 共 斩 梯 度 算法 的 许多 方面 的 指导 性 处 理 方法 ， 见 Shewchuk 
(1994) 。 关 于 在 神经 网 络 领 域 中 该 算法 的 易 读 文献 见 Johansson 等 〈1990) 。 

共 堪 梯度 算法 的 传统 形式 要 求 使 用 直线 搜索 方法 ， 它 可 能 因为 自身 的 尝试 性 和 误差 性 而 花费 时 间 。Moller 
(1993〉 措 述 共 思 e 梯 度 算法 的 一 个 修改 版 本 ， 称 为 比例 共 思 f 梯 度 算法 ， 它 避免 使 用 二 线 搜索 。 从 本 质 上 来 
说 ， 直 线 搜索 由 算法 的 一 维 空间 的 Levenberg-Marquardt 形式 代替 。 使 用 这 种 办 法 的 动机 是 避 开 由 非 正 冠 
Hessian 矩阵 引起 的 困难 (Fletcher, 1987). 


. 被 称 为 听 的 技术 是 由 Pearlmutter(1994) 而 来 ， 它 提供 了 计算 矩阵 向 量 乘 积 的 有 效 程序 ; 因此 ， 这 一 技术 


能 够 实际 应 用 于 计算 式 (4. 138) 中 的 道 Hessian 矩阵 H ', JE 4. 6 中 会 用 到 钢 技 术 。 


. Fukushima(1980, 1995) 在 设计 一 个 称 为 神经 认 知 机 的 学 习 机 时 ， 引 用 了 Hubel 和 Wiesel 关于 “简单 ” 


和 “复杂 ”细胞 的 概念 ， 这 是 该 概念 在 神经 网 络 文 献 中 首次 被 引用 。 然 而 ， 这 个 学 习 机 以 自 组 织 的 形式 运 
行 ， 而 图 4. 23 描述 的 卷 积 网 络 使 用 标定 的 样本 以 监督 的 形式 运行 。 


. 对 于 通用 短视 映射 定理 的 起 源 ， 参 看 Sandberg(1991) 。 
. 对 于 VC 维 数 的 细节 和 相关 的 实验 误差 的 讨论 ， 参 看 Vapnik(1998) 关于 统计 学 习 理 论 的 经 典 书籍 。VC 


维 数 也 在 Scholkopf and Smola(2002) 以 及 Herbrich(2002) 的 书 中 做 了 讨论 。 值 得 一 提 的 是 : VC 维 数 和 
Cover 分 离 能 力 有 关 ， 这 将 在 第 5 章 中 讨论 。 


习题 
反 向 传播 学 习 


4.1 


为 了 解决 XOR 问题 ， 图 P4. 1 表示 一 个 包括 单个 隐藏 神经 元 的 神经 网 络 ; 这 个 网 络 可 以 看 作 是 在 第 4.5 
节 中 所 考虑 模型 的 替代 模型 。 通 过 构建 (a) 决策 区 域 和 Cb) 网 络 的 真 值 表 ， 证 明 图 P4. 1 表示 的 网 络 
解决 了 XOR 问题 。 





图 P4.1 


4.2 使 用 反 向 传播 算法 为 图 4. 8 所 示 的 神经 网 络 计算 一 组 突 触 权 值 和 偏 置 的 值 以 解决 XOR 问题 。 假 设 非 线 


性 使 用 一 个 logistic pi. 


4.3 ”动量 项 a 通常 被 指定 为 在 0 所 a 过 1 范围 的 正 值 。 如 果 a ERPE IKS 之 间 的 一 个 负 值 ， 研究 在 这 


样 的 条 件 下 使 得 式 (4. 43) 关 于 时 间 :的 行为 差异 。 


4.4 ”考虑 包括 单个 权 值 的 网 络 的 简单 例子 ， 它 的 代价 溯 数 是 : 


Elw) = ki (w— w) +: 
Hew. k 和 ks 是 常数 。 用 有 具有 动量 项 a EH R A te). 
探索 包含 的 动量 项 常数 a 是 怎样 影响 学 习 过 程 的 。 特 别 注意 与 a 相对 而 言 达 到 收敛 所 需 的 步 数 。 
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4.5 式 (4.51) 到 式 (4. 53) 定 义 图 4. 14 中 的 多 层 感 知 器 实现 的 琐 近 函数 FC(w,x) 的 人 篇 导数 。 根 据 如 下 的 条 件 
推导 这 些 公 式 : 
Ca) AK BY wh HE 


Ein) = sla- F(w,x) |? 


Cb) 神经 元 7 的 输出 : 


y; 一 of wy 
其 中 w; 是 从 神经 元 i 到 神经 元 ; 的 突 触 权 值 ，y; 是 神经 元 i 的 输出 。 
(c) 非 线 性 : 
= l 
po 1+ exp(— v) 


4.6 由 Pearlmutter(1994) RM MAKA, EH T iA E E ERRER EREN., ATR AEF, 
考虑 一 个 单一 隐藏 层 的 多 层 感知 器 ， 网络 的 前 向 传播 公式 定义 为 ; 


U; = > AT 
zj 一 olv; ) 
ye 一 > wyz; 


Rl ] 记 为 作用 于 括号 内 的 量 的 一 个 算 子 ， 用 于 对 手头 的 示例 网 络 产生 如 下 的 结果 
Rv; | = Dane 9 Rl wi | 一 Oy 


Ril v; Z p (vi) Rly; |. g Cuj) == pv) 


Ry] = Dwi RL z, | + res 9 PR wey; | = ae 


REE BMA RM. MARLY, BERL + ] 遵 循 附加 如 下 条 件 的 微 积 分 学 的 通常 规则 ， 
OR] w; i 一 By 
其 中 w 是 连接 到 节点 ;的 权 值 向 量 ，a; RAREST SAMAK OE. 
(a) 对 反 向 传播 算法 应 用 够 技术， 推导 和 矩阵 向 量 乘积 Ha 的 元 素 的 表达 式 ， 识别 隐藏 和 输出 神经 元 的 新 
变量 。 对 于 这 一 应 用 ， 利 用 本 习题 开始 所 描述 的 多 层 感知 咽 。 

Cb) 证 明 久 技术 是 计算 快速 的 。 

监督 学 习 问 题 

4.7 在 这 一 习题 中 ， 我 们 研究 多 层 感知 器 完成 的 输出 表达 和 决策 规则 。 从 理论 上 讲 ， 对 于 M 类 分 类 问题 ，M 
个 不 同类 的 结合 形成 了 整个 输入 空间 ， 我 们 共 需 要 M 个 输出 来 表示 所 有 可 能 的 分 类 决策 ， 如 图 P4.7 所 
Mm. CTR, Wx 记 为 由 多 层 感 知 器 分 类 的 m 维 随机 向 量 x 的 第 7 个 原型 (prototype) (Ml, ME— 
样本 )。x 能 属于 的 M 个 可 能 类 的 第 上 个 类 记 为 如 。 令 ys 为 响 | 
应 于 原型 xz; 的 网 络 第 上 个 输出 ， 如 下 所 示 : 





Ykj = F(x), k= 1,2," ,MM 
其 中 国 数 F(，) 定 义 网 络 学 习 的 从 输入 到 第 个 输出 的 映射 。 
为 了 表述 的 方便 ， 令 图 P4.7 习题 4.7 中 模式 分 类 器 框图 


平 L yay + Yzf res vag)" = |F, (x; ) ,Fy Og) oe Fu (x) ]* = F(x;) 
其 中 FE(。) 是 向 量 值 函数 。 我 们 在 这 一 问题 中 希望 解决 的 基本 问题 是 : 
在 多 层 感知 器 训练 之 后 ， 对 于 分 类 网 络 的 M 个 输出 而 言 什 么 是 最 优 决策 规则 ? 
为 了 解决 这 一 问题 ， 考 虑 使 用 对 隐藏 层 神经 元 能 人 logistic 函数 的 多 层 感 知 岩 并 且 在 如 下 假设 下 运行 : 
。 训练 样本 的 大 小 足够 大 使 得 能 够 对 正确 分 类 概率 做 合理 的 精确 合计 。 
。 用 于 训练 多 层 感知 器 的 反 向 传播 算法 不 陷入 局 部 极 小 感 。 
具体 来 说 ， 对 多 层 感 知 器 的 M 个 输出 提供 后 验 类 概率 估计 的 性 质 进行 数学 讨论 。 
4.8 在 这 一 问题 中 ,我 们 回顾 第 4. 10 节 中 讨论 过 的 学 习 率 的 自 适 应 控制 。 感 兴趣 的 问题 是 论证 式 (4. 85) 中 
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的 学 习 率 Co) ETT A. AK RI FS RUS 
(a) Sri Fra (x.d) 的 辅助 向 量 ro OS. TEAR AW) BER OMT Ww 的 很 邻近 ， 
我 们 可 以 写 为 
Tin + 1) œ (1 — rn) + 6K" (wln) — Wn)) 
其 中 wo efhitwo HH. S 是 小 的 正 参 数 。 
(b) 在 Heskas and Kappen(1991) H, WEHT Ei Am 被 一 个 高 斯 分 布 的 随机 变量 还 近 。 因 此 . 证明 
下 面 的 渐进 行为 : 
lim Wn) #0 
这 一 条 件 关 于 学 习 率 参数 7 的 渐 近 行为 教 给 我 们 做 么 ? 
4.9 最 小 描述 长 度 (MDL) 准则 的 组 成 描述 如 下 (参看 式 (2. 37)): 
MDL 一 (误差 项 ) 十 (复杂 项 ) 
讨论 权 延 迟 方法 应 用 于 网 络 修剪 是 如 何 符合 MDL 形式 的 。 
4.10 在 网 络 修 前 的 最 优 脑 损 伤 (OBD) 算法 中 ， 根据 LeCun 等 (1990b), Hessian PMH HEX AAI 
近 。 利 用 这 一 逼近 ， 推 导 作 为 最 优 脑 外 科 (OBS) 算法 的 特殊 情形 的 OBD 过 程 ， 这 已 经 在 4.14 市 中 学 
习 过 了 。 
4.11 Æ Jacobs (1988) 中 ， 对 在 线 反 癌 传播 学 习 的 加 速 收 全 ,提出 了 以 下 启发: 
Ci) 代价 函数 的 每 一 个 可 调整 网 络 参 数 将 具有 其 自身 的 学 习 率 参数 。 
(ij) 每 一 个 学 习 率 参数 将 被 允许 从 一 次 迭代 到 下 一 次 迭代 之 间 发 生变 化 。 
O 当代 价 函 数 对 于 突 触 权 值 的 导数 和 算法 几 次 连续 选 代 的 代数 符号 相同 时 ， 这 一 特定 权 值 的 学 习 率 
参数 将 被 增加 。 
(jv) 当代 价 函 数 对 于 特定 突 触 权 值 的 代数 符号 和 算法 的 几 次 连续 迭代 发 生变 化 时 ， 对 该 权 值 的 学 习 率 
参数 将 被 降低 。 
这 四 个 启发 满足 反 向 传播 算法 的 位 置 约束 。 
(a) 利用 直觉 讨论 来 验证 这 四 个 启发。 
(b》 反 向 传播 算法 中 权 值 更 新 的 动量 的 包括 可 以 看 作 是 满足 了 启发 ( 诈 〉》 和 (ivV〉 的 机 制 。 证 明 这 一 


声明 的 有 效 性 。 
二 阶 最 优化 方法 
4.12 ÆRU. 41) 所 述 的 权 值 修改 中 动量 项 的 使 用 可 以 被 认为 是 共 轿 梯度 方法 的 近似 (‘Battiti，1992)。 讨 论 
这 种 说 法 的 正确 性 。 


4.13 ARA. 127) 中 8(n) 的 公式 开始 ， 推 性 Hesteness-Stiefel 公式 : 


r'(n)(r(2) — r(n—1)) 
s'(n— 1)r(n— 1) 


其 中 sD EAH, CELEB BREHPEP MAM. MAPA. HC. 128) 中 的 Polak- 
Ribiére 公式 和 式 (4. 129) 中 的 Fletcher-Reeves 公式 。 

时 序 处 理 

4.14 图 P4.14 描述 用 高 斯 形式 的 时 间 窗 口 作为 时 序 处 理 的 方法 ， 这 是 受到 神经 生物 学 考虑 的 局 发 (Boden- 
hausen and Waibel，1991)。 与 神经 元 j ØR fk: HRA BO, WW On, tis on); 其 中 oy 和 oj; 
分 别 表 示 时 延 和 窗口 的 宽度 ， 表 示 为 


Bln) = 








Ons Ti sagi) = exp( -zra u) ) si = 1,25°° ,7110 
ji 


2TG; 


神经 元 7 的 输出 模型 为 


yi(n) = o( >) wi) 
其 中 wu(n) 是 输入 xi;(n) 和 时 间 徐 口 Otin ) 的 卷 积 。 属 于 神经 元 7 的 突 触 i 的 权 值 w; MAT EE ry 都 使 
用 监督 方式 学 习 。 
这 个 学 习 可 以 通过 标准 的 反 向 传播 算法 来 实现 。 试 通过 推导 ww ，5 ，55; 的 更 新 公式 来 演示 这 个 学 习 过 程 。 
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输入 


x, (n) 





移动 这 个 窗口 
输入 至 左边 


x(n) 





神经 元 /的 输出 


u(n) 


输入 


X (n) 


Inf Js 
图 P4.14 习题 4.14 的 图 : 附加 于 高 斯 窗口 的 指示 是 针对 学 习 算法 的 





计算 机 实验 


4.15 


研究 使 用 sigmoid 非 线 性 函数 的 有 反 向 传播 学 习 方 法 获得 一 对 一 映射 ， 描 述 如 下 ， 
L faa, 1 和 xz 委 100 


2. f(x) =logixz, lXxr<10 
3. f(x) =exp(—a7), lxxr10 


4. f(x) =sinz, 0K 


对 每 个 映射 ， 完 成 如 下 工作 : 

(a) 建立 两 个 数据 集 ， 一 个 用 于 网 络 训练 ， 另 一 个 用 于 测试 。 

Cb) 假设 具有 单个 隐藏 屋 ， 利 用 训练 数据 集 计算 网 络 的 突 触 权 值 。 

(c) 通过 使 用 测试 数据 求 网 络 计算 精度 的 值 。 

便 用 单个 隐藏 层 ， 但 隐藏 神经 元 数目 可 变 ， 研 究 网 络 性 能 是 如 何 受 隐藏 层 大 小 变化 影响 的 。 

重复 4.7 节 对 MLP 分 类 器 的 计算 机 试验 ， 其 中 两 月 之 间 的 距离 设 为 d= 一 0。 根据 习题 1.6 中 关于 感知 器 
对 于 同样 设置 的 相应 试验 来 评价 你 的 试验 发 现 。 

在 这 一 试验 中 ， 考 虚 一 个 理论 上 已 知 其 决策 边界 的 模式 分 类 试验 。 本 试验 的 主要 目的 是 看 看 如 何 就 最 
优 决 策 边 界 而 言 从 试验 上 最 优化 多 层 感知 器 的 设计 。 

具体 来 说 ， 要 求 如 何 区 分 两 个 具有 相互 覆盖 的 二 维 高 斯 分 布 模式 的 等 可 能 类 ， 这 两 个 类 标示 为 @ AE. 
这 两 个 类 的 条 件 概率 密度 函数 是 、 


1 l 
Class € pare, (x|@) = zzexp(— zz lx ms Ih?) 


其 中 
p = 欧 值 向 量 二 [0,0]7 
of 一 方差 二 1 


1 l 
Class G Priha (x | €) = zzexp(— Zo | X — ik I 2) 


其 中 
he 一 [20] 
of = 4 


Ca) 最 优 贝 时 斯 次 策 边 界 是 由 似 然 比 测试 
B 
ACx) eA 


2 
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定义 的 ， 其 中 

Psi, (x |%@) 

Pui, (x|@) 

A SE PAK A Fo RE a. UR RIP, HE eb 


== (8 
半径 是 7 二 2. 34, 


Ch) 假设 利用 单一 隐藏 层 。 要 求 通过 试验 决定 隐藏 神经 元 的 最 优 个 数 。 
。 从 具有 两 个 隐藏 神经 元 的 多 层 感 知 器 开始 ， 利 用 学 习 率 ?一 0.1 和 动量 常数 a 二 0 的 反 向 传播 算 
法 来 训练 网 络 ， 利 用 下 面 的 方案 来 计算 正确 分 类 的 概率 ， 


A(x) 一 


训练 样本 大 小 





。 重复 这 一 试验 ， 这 一 次 利用 四 个 隐藏 神经 元 ， 其 他 都 与 前 面相 同 。 比 较 这 第 二 个 试验 的 结果 和 
前 面 的 试验 结果 ， 然 后 根据 你 考虑 的 最 优选 择 来 选择 两 个 还 是 四 个 隐藏 神 经 元 的 网 络 结构 。 
(Cc) 对 于 (b) 部 分 选择 的 “最 优 ” 网 络 ， 现 在 转向 试验 性 地 寻找 学 习 率 参数 7 和 动量 常数 a 的 最 优 值 。 
为 了 这 样 做 ， 利 用 下 面 参数 的 组 合 来 完成 试验 : 
„E€ [0.01,0.1,0.5] 
a € [0.0,0.1,0.5] 
从 和 而， 决定 产生 正确 分 类 最 好 概率 的 7 和 e 的 值 。 
(d) 已 经 有 了 隐藏 层 最 优 大 小 以 及 ww 和 a 的 最 优 集 后 ， 完 成 最 后 的 试验 来 寻找 最 优 决 策 边界 和 相应 的 最 
优 分 类 概率 。 比 较 这 样 通过 试验 获得 的 最 优 性 能 和 理论 最 优 解 ， 对 你 的 结果 做 出 评论 。 
在 这 个 习题 里 我 们 用 标准 的 反 向 传播 算法 来 解决 困难 的 非 线 性 预测 问题 ， 比 较 它 与 LMS 算法 的 性 能 。 
要 考 典 的 时 间 序 列 由 离散 Volterra 模型 建立 ， 其 形式 为 


x(n) = Digw(n—i) + 2 Diggutn—Dvln— j) + 


其 中 g; ,gs ，… 是 Volterra 系数 。w(z) 是 独立 的 高 斯 分 布 白 噪 声 序列 的 抽样 。z(z?) 是 Volterra 模型 的 输 
出 结果 。 第 一 个 求 和 项 是 我 们 熟悉 的 滑动 平均 (MA) 时 间 序 列 模型 ， 晋 余 的 求 和 项 是 更 高 阶 的 非 线性 
的 部 分 。 一 般 而 言 ， 对 Volterra 系数 的 估计 通常 认为 是 困难 的 ， 主 要 是 因为 它们 和 数据 的 非 线性 关系 。 
考虑 一 个 简单 的 例子 : 
a(n) = vln) + Bola — 1) u(r — 2) 
时 间 序 列 具 有 零 均 值 ， 不 相关 ， 从 而 有 一 个 白 品 声 的 谱 。 然 而 ， 时 间 序 列 的 样本 并 不 是 互相 独立 的 ， 
因而 可 以 构造 一 个 高 阶 预测 器 。 模 型 输出 的 方差 由 
É = o, tha 

A. t o 是 白 噪声 的 方差 。 
(a) 构造 一 个 多 层 感知 器 ， 有 6 个 输入 节点 ， 隐 藏 层 含有 16 个 神经 元 ， 只 有 一 个 输出 神经 元 。 使 用 抽 

头 延 时 线 记忆 人 馈 给 网 络 的 输入 层 。 隐 藏 层 神经 元 使 用 sigmoid 激活 函数 ， 限 制 在 区 间 [0,1] 内， 而 

输出 神经 元 充当 一 个 线性 的 组 合 器 。 网 络 使 用 标准 反 向 传播 算法 进行 训练 ， 有 关 参 数 如 下 : 


学 习 率 参数 1 一 0. 001 
动量 常数 a=0. 6 
处 理 的 样本 总 数 100 000 
每 个 回合 的 样本 数目 1 000 
总 的 回合 数目 2 500 


白 噪声 方差 o 为 1。 因 此， 用 8 二 0.5， 我 们 求 出 预测 器 的 输出 方差 为 oz 二 1.25。 
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计算 非 线性 预测 器 的 学 习 曲 线 ， 将 预测 器 输出 zx(Cm) 的 方差 绘制 成 训练 样本 的 回合 数 的 函数 ， 一 直 

MS 2 500 个 回合 。 为 了 准备 进行 训练 的 每 个 回合 ， 探 讨 下 述 两 种 方式 : 

Ci) 维持 训练 样本 的 时 序 ， 从 一 个 回合 到 下 一 个 回合 与 产生 它 的 时 序 一 样 。 

(ii ) 训练 样本 的 顺序 从 一 个 模式 〈 状 态 ) 到 另 一 个 模式 是 随机 产生 的 。 

同时 ， 对 1 000 个 样本 的 验证 集 使 用 交叉 验证 〈 在 第 4. 13 节 中 描述 ) ， 来 监测 预测 器 的 学 习 行 为 。 
(b) 重复 试验 ， 使 用 LMS 算法 对 6 个 样本 的 输入 执行 线性 预测 。 算 法 的 学 习 率 参数 设置 为 y= 10°, 
(c) 重复 整个 实验 ， 用 8 一 1,， 史 一 2; 接着 再 重复 ， 用 8 一 2， 史 一 5。 
每 个 实验 的 结果 应 该 揭示 反 向 传播 算法 和 LMS 算法 最 初 基本 遵循 相似 的 途径 ， 然 而 反 向 传播 算法 继续 
改进 ， 最 终 产生 一 个 接近 预定 值 of 的 预测 方差 。 
在 本 试验 中 ， 我 们 利用 由 反 向 传播 算法 训练 的 多 层 感知 器 来 完成 Lorenz 吸引 子 的 一 步 预测 。 这 一 吸引 
子 的 动力 学 系统 由 下 面 的 三 个 方程 来 定义 ， 


drí) _ 
TA ax (t) + oy (t) 





Y zz) Hre — yC) 


gn = xlt) y(t) — bz (t) 


其 中 zc，r， 和 是 无 量 纲 的 参数 。 这 些 参 数 的 典型 值 是 co 10, 5b 二 8/3 和 > 一 28。 
多 层 感 知 器 的 详细 情况 如 下 所 示 : 

源 节 点 个 数 ， 20 

隐藏 层 神 经 元 个 数 : 200 

输出 神经 元 个 数 : 1 

数据 集 的 特性 如 下 所 示 : 

训练 样本 : 700 个 数据 点 

测试 样本 : 800 个 数据 点 

用 于 训练 的 回合 数 : 50 
反 向 传播 算法 的 参数 如 下 所 示 : 

学 习 率 参数 7 从 10 线性 退火 到 107”. 

动量 : a=0 

(a) 计算 MLP 的 学 习 曲 线 ， 夯 出 均 方 误差 对 用 于 训练 的 回 人 台数 的 图 。 

(b) 计算 Lorenz 吸引 子 的 一 步 预 测 ;， 具体 来 说 ， 画 出 时 间 的 函数 所 获得 的 结果 ， 化 较 预 测 结 果 和 和 
Lorenz 吸引 子 的 演化 结果 。 
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在 本 章 中 ， 我 们 学 习 机 器 学 习 的 另 一 种 途径 : 基于 聚 类 的 核 方 法 。 在 5.1 节 的 引言 之 后 ， 
本 章 剩 下 的 章 闻 组 织 如 下 ， 

5.2 节 介 绍 关 于 模式 可 分 的 Cover 定理 。 该 定理 是 通过 对 XOR 问题 的 回顾 来 描述 的 。 

5.3 节 讨 论 利用 径 向 基 吵 数 来 求解 插值 问题 。 

5.4 节 讨 论 构 造 径 向 基 函 数 (RBF) 网 络 ， 也 包括 了 对 于 RBF 网 络 的 实际 考 虚 。 

5.5 节 讨 论 并 -均值 算法 ， 该 算法 提供 一 个 用 于 聚 类 的 简单 但 普及 的 算法 ， 对 于 在 非 监督 方 
式 下 训练 隐藏 层 是 很 适合 的 。5.6 贡 是 在 -均值 聚 类 算法 之 后 指 述 最 小 二 乘 估 计 的 递归 执行 ， 
这 是 用 于 在 监督 方式 下 训练 RBF 网 络 的 输出 层 。5.7 节 讲 述 设 计 有 RBF 网 络 时 对 于 这 两 阶段 过 
程 的 实际 考虑 。 这 一 过 程 在 5.8 节 的 计算 机 实验 中 具体 说 明 ， 并 和 第 4 章 中 运用 反 向 传播 算法 
所 做 的 同样 的 计算 机 试验 的 结果 作 了 比较 。 

5.9 节 考 察 高 斯 隐藏 单元 的 解释 ，5. 10 节 考 察 统计 学 中 核 回归 和 RBF 网 络 之 间 的 关系 。 

最 后 是 5.11 菜 的 小 结 和 讨论 。 


5.1 516 


对 神经 网 络 的 监督 学 习 有 多 种 不 同 的 方法 。 第 4 BER A) E A YB e FB RIR., 
可 以 看 作 是 递归 技术 的 应 用 ， 这 种 技术 在 统计 学 中 通称 为 随机 逼近 。 
在 本 章 中 ， 我 们 采用 完全 不 同 的 途径 。 具 体 来 说 ， 通 过 包含 如 下 两 阶段 的 混合 方式 来 解决 
非 线性 可 分 模式 的 分 类 问题 
。 第 一 阶段 将 一 个 给 定 的 非 线 性 可 分 模式 的 集合 转换 为 新 的 集合 ， 在 一 定 的 条 件 下 ， 转 
换 后 的 模式 变 为 线性 的 可 能 性 很 高 ; 关于 这 一 转换 的 数学 证 明 可 以 追 泣 到 Cover 
(1965) 的 早期 论文 。 
。 第 二 阶段 通过 最 小 二 乘 估 计 (第 2 章 已 讨论 过 ) 来 解 给 定 的 分 类 问题 。 
我 们 首先 通过 插值 问题 的 讨论 来 描述 关于 这 一 混合 方式 对 模式 分 类 问题 的 一 种 执行 方式 : 
使 用 径 向 基 函 数 网 络 Cradial-basis function network，RBF)' ， 该 网 络 结构 由 三 层 组 成 : 
。 输入 层 由 一 些 源 节点 (感知 单元 ) 组 成 ， 它 们 将 网 络 与 外 界 环境 连接 起 来 。 
。 第 二 层 由 隐藏 单元 组 成 ， 它 的 作用 是 从 输入 空间 到 隐藏 〈 特 征 ) 空间 之 间 进 行 非 线性 
变换 。 在 大 多 数 情 况 下 网 络 仅 有 的 隐藏 层 具 有 较 高 的 维 数 ， 这 一 层 是 利用 混合 学 习 过 
程 的 第 一 阶段 在 非 监督 方式 下 训练 的 。 
。 输出 层 是 线性 的 ， 它 是 为 提供 网 络 的 响应 而 专门 设计 的 ， 该 响应 提供 给 应 用 于 输入 层 
的 激活 模式 。 这 一 层 是 利用 混合 过 程 的 第 二 阶段 在 监督 方式 下 训练 的 。 
从 输入 空间 到 隐藏 空间 的 非 线性 变换 以 及 隐藏 空间 的 高 维 数 满足 了 Cover 定理 仅 有 的 两 个 条 件 。 
RBF 网 络 的 多 数理 论 建立 在 高 斯 函数 之 上 ， 这 一 类 中 一 个 重要 的 成 员 是 径 向 基 哨 数 。 高 
斯 函数 可 以 看 作 是 一 个 核 一 一 因此 基于 高 斯 隔 数 的 两 阶段 过 程 的 设计 可 看 成 是 核 方 法 。 
讲 到 核 ， 在 本 章 的 后 面部 分 ， 我们 也 要 讨论 统计 学 中 的 核 回 妇 和 径 向 基 薄 数 网 络 之 间 的 关系 。 


5.2 模式 可 分 性 的 Cover 定理 
当 用 径 向 基 薄 数 神经 网 络 来 解决 一 个 复杂 的 模式 分 类 任务 时 ， 问 题 基 本 可 通过 以 下 方式 解 
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决 : 首先 用 非 线 性 方法 将 其 变换 到 高 维 空间 ， 然 后 在 输出 层 进 行 分 类 。 模 式 可 分 性 的 Cover 定 
理 ， 说 明了 这 样 做 的 潜在 合理 性 ， 该 定理 可 以 定性 地 表述 如 下 (Cover，1965)， 


假设 空间 不 是 稠密 分 布 的 ， 将 复杂 的 模式 分 类 问题 非 线 性 地 投射 到 高 维 空间 将 比 投 射 到 低 
维 空 间 更 可 能 是 线性 可 分 的 。 


从 第 1 章 到 第 3 章 对 单 层 结 构 的 研究 中 知道 ,一旦 模式 具有 线性 可 分 性 ， 则 分 类 问题 相对 
而 言 就 更 容易 解决 。 因 此 ， 我 们 通过 研究 模式 的 可 分 性 可 以 深入 了 解 RBF 网 络 作 为 模式 分 类 
器 是 如 何 工 作 的 。 

考虑 一 族 曲 面 ， 每 一 个 曲面 都 自然 地 将 输入 空间 分 成 两 个 区 域 。 用 %& 代 表 六 个 模式 Ci 
量 ) x ,xs ，,… ,xy 的 集合 ， 其 中 每 一 个 模式 都 分 属于 两 个 类 8 MR. 中 的 一 类 。 如 宁 在 这 一 族 曲 
面 中 存在 一 个 曲面 能 够 将 分 别 属于 多 AIX, 的 这 些 点 分 成 两 部 分 ， 我们 就 称 这 些 点 的 二 分 (二 无 
划分 ) 关 于 这 族 曲 面 是 可 分 的 。 对 于 每 一 个 模式 xE 史 ， 定 义 一 个 由 一 组 实 值 函 数 (pO ji = 1, 
2,… ,mi} 组 成 的 向 量 ， 表 示 如 下 : 

中 (x) = Lo (x) p (x) 2 9 Om, (x) |? (5.1) 
假设 模式 x 是 mo 维 输入 空间 的 一 个 向 量 ， 则 向 量 中 (x) 将 m, 维 输 入 空间 的 点 映射 到 新 的 mm 
维 空间 的 相应 的 点 上 。 我 们 将 mw(x) 称 为 隐藏 函数 ， 因 为 它 与 前 钻 神 经 网 络 中 的 隐藏 单元 起 
着 同样 的 作用 。 相 应 地 ， 由 隐藏 函数 集合 (g(x) 名! 所 生成 的 空间 被 称 为 隐藏 空间 或 者 特征 
空间 。 

我 们 称 一 个 关于 的 二 分 (Hi, He) 是 中 可 分 的 ， 如 果 存 在 一 个 mi 维 的 向 量 w 使 得 我 们 得 
到 如 下 公式 (Cover, 1965); 





w 中 (x) > 0， x € X, (5. 2) 
w' 中 (x) <0, x € 多， 
由 方程 
w' d(x) = 0 
定义 的 超 平面 描述 中 空间 〈 即 特征 空间 ) 中 的 分 离 曲 面 。 这 个 超 平面 的 逆 像 ， 即 
x: wI 中 (x) =0 (5. 3) 


定义 输入 空间 中 的 分 离 曲 面 〈 即 决策 边界 ) 。 
考虑 -一 个 利用 > 次 模式 向 量 坐 标 乘积 的 线性 组 合 实现 的 一 个 自然 类 上 映射。 与 此 禹 映射 相对 
所 一 个 my 维 空间 的 = 阶 有 理 艇 可 描述 为 输入 向 量 x 的 坐标 的 
一 个 了 次 齐 次 方程 ， 表 不 为 
Di tgp ieee, SO (5. 4) 


| 2 
i, Si Si, Sm, 


其 中 z; 是 输入 向 量 x 的 第 ARE. 为 了 用 齐 次 形式 来 表达 大 方程 ， 将 z 的 值 置 为 单位 值 1。x 
中 项 x, 的 > 阶乘 积 ， 即 x; air, ， 被 称 为 单项 式 。 对 于 一 个 m 维 的 输入 空间 在 式 〈5.4) 中 
一 共有 


(mo —r)! 
mo rt T a O 
个 单项 式 。 式 (5. 4) 所 描述 的 分 离 曲 面 的 类 型 的 ”x x © io 


例子 有 超 平 面 NEBR), Skin (二 阶 ” 


O 


APE) 和 超 球 面 ( 带 有 某 种 线性 限制 系数 的 S 图 7 
二 次 曲面 ) 等 。 这 些 例 子 的 说 明 匈 图 5 1， 该 图 5.1 二 维 平面 上 5 个 点 的 不 同 集合 的 p 一 可 分 二 
图 说 明 在 二 维 输入 空间 中 的 五 点 的 爸 形 。 通 希 分 的 3 个 例子 ，a) 线性 可 分 的 二 分 ; b) 球 
情况 下 ， 线 性 可 分 性 暗示 着 球面 可 分 性 ， 南 球 形 可 分 的 二 分 ; c) 二 次 可 分 的 二 分 
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面 可 分 性 又 暗示 着 二 次 可 分 性 ; 反之 则 不 一 定 成 立 。 
在 概率 实验 中 ， 一 个 模式 集合 的 可 分 性 是 一 个 随机 事件 ， 该 随机 事件 依赖 于 选择 的 二 分 

以 及 输入 空间 的 模式 分 布 。 假 设 激 活 模 式 xi ,x ，… ,xn 是 根据 输入 空间 中 的 概率 特性 而 独立 
选取 的 。 同 时 假设 所 有 的 关于 多 二 {zi;) 六 的 二 分 都 是 等 概率 的 。 令 PCN,mi) 表 示 某 一 随机 选取 
的 二 分 是 op 可 分 的 概率 ， 这 里 被 选中 的 分 离 曲面 的 类 具有 m 维 的 自由 度 。 根 据 Cover 
(1965)， 可 以 将 PCN,mi ) 表 述 为 : 
| tarai nN = SN Sal 
PCNwm) = {($) > ji ) 对 Nm—l 


这 里 ,包括 N 一 1 和 m 的 二 项 式 系 数 对 所 有 的 整数 1 和 mm 定义 如 下 : 


(5. 5) 


( A as L! 
m (l—m) tm! | 

要 说 明 式 (5.5) 的 图 形 ， 最 好 通过 令 N=Am 来 归 一 化 方程 并 对 m 的 变化 值 画 出 概率 PO m, ， 
m ) 对 的 图 。 这 个 图 揭示 了 两 个 有 趣 的 性 质 (Nilsson，1965): 

。 在 4 二 2 附近 宣称 的 阅 值 效应 (threshold effect); 

© WHF m 的 每 个 值 Pm, m)=1/2. 

RG. DKAT Cover 的 可 分 性 定理 对 于 随机 模式 的 本 质 *。 它 说 明 累 计 二 项 概率 分 布 ， 相 
Hh (N 一 1) 次 硬币 有 (mi 一 1) 次 或 更 少 次 头像 向 上 的 概率 。 

尽管 在 式 (5. 5) 的 推导 中 遇见 的 隐藏 单元 曲面 是 一 个 多 项 式 的 形式 ， 因 而 与 我 们 通常 在 径 
向 基 函 数 网 络 中 用 到 的 有 所 不 同 ， 但 是 该 式 的 核心 内 容 却 具有 普遍 的 适用 性 。 具 体 来 说 ， 隐 藏 
空间 的 维 数 m 越 高 ， 则 概率 PCN ,mi ) 就 越 趋 向 于 1。 总 之 ， 关 于 模式 可 分 性 的 Cover CHE 
要 包含 下 面 两 个 基本 部 分 : 

lL 由 pi (XxX) 定义 的 隐藏 加 数 的 非 线性 构成 ， 这 里 Xx 是 输入 向 量 ， 且 i 二 1,2 "Mm 。 

2. 高 维 数 的 隐藏 (特征 ) 空间， 这 里 的 高 维 数 是 相对 于 输入 空间 而 言 的 。 维 数 由 赋 给 m 

的 值 ( 即 隐藏 单元 的 个 数 ) RE, 


如 前 所 述 ， 通 常 将 一 个 复杂 的 模式 分 类 问题 非 线性 地 投射 到 高 维 数 空间 将 会 比 投射 到 低 维 
数 空间 更 可 能 是 线性 可 分 的 。 但 是 需要 强调 的 是 ， 有 时 使 用 非 线 性 映射 〈( 即 第 1 点) 就 足够 寻 
致 线性 可 分 ， 而 不 必 升 高 隐藏 单 元 空间 维 数 ， 如 下 面 例子 所 说 明 的 那样。 

例 1 XOR 问题 

为 了 说 明 模 式 的 og 可 分 性 思想 的 意义 ， 考 虚 一 个 简单 却 又 十 分 重要 的 XOR 问题 。 在 XOR 
问题 中 有 四 个 二 维 输 入 空间 上 的 点 (模式 ); (1,1),(0,1),(0,0) 和 (1,0) ， 如 图 5. 2a 所 示 。 要 
求 建立 一 个 模式 分 类 器 产生 二 值 输出 响应 ， 其 中 点 (1,1) 或 (0,0) 对 应 于 输出 0， 点 (1,0) 或 
(0,1) 对 应 于 输出 1。 因 此 在 输入 空间 中 依 Hamming 距离 最 近 的 点 映射 到 在 输出 空间 中 最 大 分 
离 的 区 域 。 一 个 序列 的 Hamming 距离 定义 为 二 值 序列 中 从 符号 1 变 为 0 的 个 数 ， 反 之 亦 然 。 
因此 ，11 和 00 的 Hamming 距离 是 0，01 和 10 的 Hamming 距离 为 1。 

定义 一 对 高 斯 隐藏 函数 如 下 : 

g(x) = exp l x—t (5, by ll 

p: (x) 一 exp(— | x= z |] 7), ta = [0,0] 
这 样 我 们 可 以 得 到 4 个 不 同 的 输入 模式 作为 输入 时 的 结果 ， 如 表 5. 1 所 示 。 如 图 5. 2b tm, 
输入 模式 被 映射 到 (ew; ,ws) 平面 上 。 这 里 可 以 看 到 输入 (0,1), (1,0) 与 剩 下 的 两 个 输入 〈1， 
1),(0,0) 是 线性 可 分 的 。 然 后 ， 我 们 将 pi OM mw (x) 作 为 一 个 线性 分 类 器 (如 感知 器 〉 模 型 
的 输入 ， 则 XOR 问题 就 迎刃而解 了 。 图 
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Pa 
(0,1) (1,1) 
@ © 


(0,0) (1,0) 
® © 





a) 


图 5.2 a) XOR 问题 的 4 个 模式 ; b 决策 图 
表 5.1 用 于 例 1 的 XOR 问题 的 隐藏 函数 设置 


输 人 模式 x ”| 第 一 隐藏 应 数 m (x)| 第 二 隐藏 函数 pa (x) 输入 模式 x | 第 一 隐藏 函数 pi (x)| 第 二 隐藏 函数 pz (x) 


在 这 个 例子 中 隐藏 空间 的 维 数 相 对 于 输入 空间 并 没有 增加 。 也 就 是 说 ， 以 高 斯 落 数 作为 非 
线性 的 隐藏 函数 ， 足 以 将 XOR 问题 转化 为 一 个 线性 可 分 问题 。 
曲面 的 分 离 能 力 | 

RG. 5) 对 于 在 多 维 空间 中 随机 指定 输入 模式 线性 可 分 的 期 望 最 大 数目 有 重要 意义 。 为 了 
研究 这 个 问题 ， 如 前 所 述 将 Xi ,x ，… xy 视 为 一 个 随机 模式 〈 向 量 ) 序列 。 令 N 为 一 个 随机 变 
量 ， 定 义 为 该 序列 为 p 可 分 时 的 最 大 整数 ， 这 里 p 具有 和 ma: 的 自由 度 。 于 是 由 式 (5.5) 可 以 导出 
当 N=n 时 的 概率 

1\" 


Prob(N = n) = Psm) — Pat lm) = (7) (a a 
为 了 解释 上 述 结 果 ， 我 们 回想 一 下 负 二 项 分 布 的 定义 。 该 分 布 相 当 于 在 一 组 重复 的 Ber- 
noulli 实验 中 有 次 成 功 、& 次 失败 的 概率 。 在 这 种 概率 实验 中 ， 每 一 次 实验 只 有 两 种 结果 ， 
不 是 成 功 就 是 失败 ， 并 且 成 功 和 失败 的 概率 在 整 组 实验 中 都 是 相同 的 。 令 p 代表 成 功 的 概率 ， 
d 代表 失败 的 概率 ，p 十 gq 一 1。 负 二 项 分 布 定义 (Feller，1968) WF: 
a ve or) 
k 


n— l 


Jon = 0,1,2," (5.6) 


flkirsp) = p'o 
在 p 一 g 一 十 ( 即 成 功 和 失败 具有 相等 的 概率 ) 且 & 十 r 一 n 的 特殊 情况 下 ， 负 二 项 分 布 将 变 为 


l taryan 
flkimn—ko >) = (5) C, )n= 0,1,2," 
根据 上 述 定义 ， 我 们 现在 可 以 看 出 由 式 (5. 6) 所 表示 的 结果 恰好 是 负 二 项 分 布 ， 只 不 过 右 移 了 
m 个 单位 且 具 有 参数 m 和 1/2。 这 样 ，N 相当 于 在 一 组 抛 硬币 的 实验 中 出 现 第 ma: 次 失败 的 
“等 待 时 间 ”。 随 机 变量 N 的 期 望 及 其 中 位 数 分 别 为 
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和 和 
median| N] = 2m, ` (5.8) 
因此 ， 可 以 得 到 Cover 定理 的 一 个 推论 ， 用 著名 的 渐 近 结果 的 形式 可 表述 如 下 : 
一 组 随机 指定 的 输入 模式 (向 量 ) 的 集合 在 m 维 空间 中 线性 可 分 ， 它 的 元 素数 目的 最 大 
期 望 等 于 2M] o : 
KARA, 2m 是 对 一 族 具 有 m 维 自 由 度 的 决策 曲面 的 分 离 能 力 的 自然 定义 。 在 一 定 
程度 上 ， 一 个 曲面 的 分 离 能 力 与 第 4 章 讨论 的 VC 维 数 的 概念 有 着 紧密 的 联系 。 


5.3 插值 问题 


从 关于 模式 可 分 性 的 Cover 定理 得 到 的 重要 思想 是 ， 在 解决 一 个 非 线性 可 分 的 模式 分 类 问 
题 时 ， 如 果 将 输入 空间 映射 到 一 个 新 的 维 数 足 够 高 的 空间 中 去 ， 将 会 有 助 于 问题 的 解决 。 基 本 
说 来 是 用 一 个 非 线 性 映射 将 一 个 非 线性 可 分 的 分 类 问题 转变 为 一 个 高 概率 的 线性 可 分 问题 。 同 
样 ， 我 们 可 以 用 非 线 性 映射 将 一 个 复杂 的 非 线 性 滤波 问题 转化 为 一 个 较 简单 的 线性 滤波 问题 。 

现在 考虑 一 个 由 输入 层 、 一 个 隐 蕊 层 和 只 有 一 个 输出 单元 的 输出 层 组 成 的 前 馈 网 络 。 我 们 
选择 只 有 一 个 输出 单元 的 输出 层 的 目的 主要 是 为 了 简化 说 明 而 又 不 失 一 般 性 。 设 计 这 个 网 络 实 
现 从 输入 空间 到 隐藏 空间 的 一 个 非 线 性 映射 ， 随 后 从 隐藏 空间 到 输出 空间 则 是 线性 映射 。 令 
m 为 输入 空间 的 维 数 。 这 样 从 总 体 上 看 这 个 网 络 就 相当 于 一 个 从 m 维 输入 空间 到 一 维 输出 空 
间 的 映射 ， 可 以 写成 如 下 形式 : 

s: R> > R (5. 9) 
我 们 可 以 将 映射 * 视 为 一 个 超 曲 面 〈 图 ) TC R™+*!， 就 好 像 可 以 将 一 个 最 基本 的 映射 s: R 一 
R!， 其 中 s(x)= 二 x*， 视 为 R? 空间 中 的 一 条 抛物 线 一 样 。 超 曲面 工作 为 输入 的 函数 是 输出 空间 
的 一 个 多 维 曲 面 。 在 实际 情况 下 ， 曲 面 TT 是 未 知 的 ， 并且 训练 数据 中 通常 带 有 了 噶 声 。 学 习 过 程 
中 的 训练 阶段 和 汉化 阶段 可 叙述 如 下 (Broomhead and Lowe, 1988): 
。 训练 阶段 由 曲面 工 的 拟 合 过 程 的 最 优化 构成 ， 它 根据 以 输入 -输出 样本 《模式 〉 形式 呈 
现 给 网 络 的 已 知 数据 进行 。 
。 泛 化 阶段 的 任务 就 是 在 数据 点 之 间 进 行 插值 ， 插 值 是 在 真实 曲面 了 的 最 佳 通 近 的 拟 合 
过 程 产 生 的 约束 曲面 上 进行 的 。 

这 样 我 们 将 引出 具有 悠久 历史 的 高 维 空间 多 变量 播 值 理论 (Davis，1963)。 从 严格 意义 上 
说 ， 插 值 问 题 可 以 叙述 如 下 : 

给 定 一 个 包含 NN 个 不 同 点 的 集会 (x E R” |i = 1,2,…,N) 和 相应 的 NN 个 实数 的 一 个 集 
A idi € RJi= 1,2, N}, 了 寻找 一 个 函数 下 ; RXR ARPRBARE: 

F(x) = di; i= 1,2, N (5. 10) 


对 于 这 里 所 述 的 严格 插值 来 说 ， 插 值 曲面 〈 即 函数 ) 必须 通过 所 有 的 训练 数据 点 。 
RERA (RBF) 技术 就 是 要 选择 一 个 函数 下 具有 下 列 形式 : 


F(x) = D, wep | x x: i (5.11) 
其 中 {o( || x—x, J 1i 二 1,2,…,N) 是 NN 个 任意 (一 般 是 线性 ) BWR, RABE S 


数 ; | 。|| 表 示范 数 ， 通 常 是 欧 几 里 得 范 数 (Powell, 1988). 已 知 数据 点 x € RG = 1, 


2,… ,NN) EB MERAH Ps, 
Hest (5.10) 的 播 值 条 件 代 人 式 (5.11) 中 ， 可 以 得 到 一 组 关于 未 知 系 数 〈 权 值 ) 的 展开 


(wo 的 线性 方程 : 
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P11 P12 ON RW) ay 
w d 
QNI PNn2 °° NN TWN dy 
其 中 
oO; = gl | x; 一 X; |), tof 一 ,2 
A 


d = [d, ;dz; "sdn ]" 
w = [w swsw] (5:13) 
上 式 中 的 NX1l 向 量 d4 和 ww 分 别 表示 期 望 响应 向 量 和 线性 权 值 向 量 ， 其 中 N 表示 训练 样本 的 
长 度 。 令 四 表示 元 素 为 gy 的 NXN 阶 的 矩阵 ， 


D 一 (1025 ) -1 (5.14) 

RIK NEM, FERRO. 12) 可 以 写成 如 下 紧凑 形式 : 
| Dw = x (5. 15) 
假设 下 为 非 奇 异 矩 阵 ， 因 此 存在 道 矩 阵 和 :。 这 样 就 可 以 从 式 (5. 15) 中 解 出 权 值 回 量 w RD 
w= @'x (5. 16) 


问题 的 关键 是 ， VE ARERR UES © 是 非 奇 异 的 ? 

可 以 证 明 ， 对 于 大 量 径 向 基 瑞 数 来 说 ， 在 某 种 条 件 下 ， 上 述 问题 的 答案 可 以 由 下 面 的 重要 
定理 给 出 。 
Micchelli 定理 

Micchelli(1986) 证 明了 如 下 定理 : 


如 果 (x MER” 中 N 个 互 不 相同 的 点 的 集合 ， 则 NXN 阶 的 插值 矩阵 OCF ij FARR 
oy =o Il xi —x; ||) aR TH. 
AKG ERROR Micchelli CH, CH T E AE BRS ABE ly 
的 函数 ， 
1. 多 二 次 (multiquadrics) RR: 
olr) = P +H)” 对 某 些 c 盖 0 及 -ER (5. 17) 
2. MELY Cinverse multiquadrics) PAR: 


1 
GO) aa, ee mHRec>ORrER (5. 18) 
3. 高 斯 函数 : 
2 
pr) = exp( 一 区 ) H¥He>ORrER (5. 19) 


多 二 次 孙 数 和 道 多 二 次 函数 都 应 归功 于 Hardy(1971)。 

为 了 使 式 (5. 17) 至 式 (5. 19) 所 示 的 径 向 基 函 数 是 非 奇 异 的 ， 必 须 使 所 有 的 输入 点 (x) 这， 
万 不 相同 。 这 就 是 使 插值 矩阵 ® 非 奇 异 的 全 部 要 求 ， 与 所 给 样本 的 长 度 N 和 向 量 〈 点 )x 的 维 
BX Mo TX. 

式 (5. 18) 的 逆 多 二 次 函数 和 式 (5. 19) 的 高 斯 函数 具有 一 个 共同 的 性 质 ， 它们 都 是 局 部 化 的 
AAO AA rolt, plr., ME Pt RHE WE h ER AR S R EE E O RE 
正定 的 。 与 此 相反 ， 由 式 (5. 17) 所 定义 的 多 二 次 函数 是 非 局 部 化 函数 ， 因 为 当 r>o0 时 ，9(7) 
是 无 界 的 ;与 其 相对 应 的 插值 矩阵 DA N 一 1 个 负 的 特征 值 ， 只 有 一 个 正 的 特征 值 ， 所 以 不 是 
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正定 的 《Micchelli，1986) 。 但 值得 注意 的 是 ， 在 Hardy 的 多 二 次 函数 基础 上 建立 的 插值 矩阵 
多 却 是 非 奇 异 的 ， 因 此 适合 在 RBF 网 络 设计 中 应 用 。 

更 加 值得 注意 的 是 无 限 增长 的 径 向 基 函 数 ， 例 如 多 二 次 函数 ， 与 其 他 产生 正定 播 值 矩 阵 的 
蚊 数 相 比 ， 能 以 更 高 的 精度 逼近 一 个 光滑 的 输入 -输出 映射 。Powell(1988) 讨论 了 这 个 令 人 惊 
奇 的 结果 。 


5.4 12o A BX 


受 式 (5. 10) 到 式 (5.16) 的 启发 ， 现 在 我 们 可 以 预想 一 个 多 层 结构 形 式 的 径 向 基 函 数 
(RBF) 网 络 ， 如 图 5. 3 所 示 ; 具体 有 三 层 : 
1. MAA, Am 个 源 布 点 组 成 ， 其 中 mm。 是 输入 向 量 x 的 维 数 。 
2. 隐藏 屋 ， 由 和 训练 样本 的 大 小 N 相同 个 数 的 计算 单元 组 成 ， 每 个 单元 都 从 数学 上 用 一 
AS 44% el] SE PRI BOE FG : 
pi; (xX) = pl || x—x; I|), j=1,25°,N 
第 ;个 输入 数据 点 x; 定义 了 该 径 向 基 思 数 的 中 心 ， 向 量 x 是 作用 于 输入 层 的 信号 (模式 )。 因 
此 ， 与 多 层 感 知 硕 不 同 ， 源 节点 和 隐藏 单元 的 连接 是 直接 连接 ， 没 有 权 值 。 
3. 输出 层 ， 在 图 5.3 的 RBF 结构 中 由 单一 计算 单元 构成 。 很 明显 ， 除 了 一 般 情 况 下 输出 
层 的 大 小 比 隐 藏 层 的 大 小 要 小 得 多 之 外 ， 对 于 输出 层 的 大 小 没有 限制 。 
目 此 之 后 ， 我 们 重点 关注 高 期 图 数 作为 径 问 基 枯 数 的 使 用 ， 在 这 样 的 情形 下 ， 图 5. 3 中 隐 
藏 层 的 每 个 计算 单元 可 以 定义 为 : 
p(X) = p= x) = exp(— z3 Il x—x, I), f= 1,2, N (5. 20) 


其 中 o 是 第 i 个 以 x 为 中 心 的 高 斯 函数 的 宽 的 测量 。 一 般 情 况 下 ， 高 斯 隐藏 单元 被 分 配给 一 
个 共用 的 宽 uc。 在 这 一 类 情形 下 ， 将 隐藏 单元 区 分 开 的 参数 是 中 心 x; 。 在 建立 RBF 网 络 时 选择 
启 斯 蚂 数 作为 径 向 基 消 数 痛 后 的 基本 原理 是 它 具 有 多 个 所 希望 的 性 质 ， 随 着 讨论 的 进行 这 些 性 
质 将 变 得 很 明显 。 





大 小 为 m, 的 大 小 为 N 的 大 小 为 1 的 
输入 层 隐藏 层 输出 层 


图 5.3 RBF 网 络 结构 ， 基 于 插值 理论 
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RBF 网 络 的 实际 修正 

图 5. 3 给 出 的 通过 插值 理论 的 RBF 网 络 形 式 非 常 整洁 。 然 而 在 实际 中 ， 我 们 发 现在 模式 
识别 或 者 非 线性 回 妇 的 背景 下 训练 样本 {xid;) :通常 是 含 嗓 声 的 。 遗 憾 的 是 ， 基 于 噪声 数据 
使 用 插值 将 导致 引入 歧途 的 结果 一 一 因此 需要 RBF MA WAAR RE. 

需要 注意 的 另 一 个 实际 问题 是 : 使 隐藏 层 具 有 和 输入 样本 个 数 相同 的 大 小 可 能 导致 计算 资 
源 的 浪费 ， 尤 其 是 处 理 大 规模 训练 样本 时 。 当 RBF 网 络 的 隐藏 层 是 由 式 (5. 20) 描 述 的 方式 所 
指定 时 ， 我 们 发 现在 训练 样本 中 上 毗连 数据 点 之 间 存 在 的 相关 性 相应 地 移植 到 了 隐藏 层 的 毗连 单 
元 上 。 换 种 方式 讲 ， 当 通过 式 (5. 20) 选 择 隐藏 层 神 经 元 时 ， 由 于 训练 样本 中 可 能 存在 的 固有 元 
余 ， 隐 藏 层 神经 元 也 具有 宛 余 。 在 这 种 情况 下 ， 使 得 隐藏 层 的 大 小 是 训练 样本 大 小 的 一 部 分 因 
而 是 一 个 好 的 设计 实践 ， 如 图 .5. 4 所 示 。 注 意 到 尽管 图 5.3 和 图 5.4 的 RBF 网 络 是 确实 不 同 
的 ， 但 它们 有 一 个 共同 的 特征 ;与 多 层 感知 器 的 情况 不 同 ，RBF 网 络 的 训练 不 包括 误差 信和 号 
的 反 向 传播 。 

通过 这 两 个 RBF 结构 实现 的 逼近 函数 具有 相同 的 数学 形式 : 


K 
F(x) = >) wea, ) (5. 21) 


其 中 输入 向 量 x 的 〈 因 此 是 输入 层 的 ) 维 数 是 m. BES aA T h ER g(x,x;) 来 刻 
mm, He j=1,2,-,K KUN 要 小 。 输 出 层 假设 由 单一 单元 组 成 ， 由 权 值 向 量 w 来 刻画 ， 
其 维 数 也 是 天。 图 5. 3 和 图 5. 4 的 结构 在 两 个 方面 有 所 不 同 : 

1. 在 图 5. 3 中， 隐藏 层 的 维 数 是 N， 这 里 N 是 训练 集 的 大 小 ， 而 图 5. 4 中 隐藏 层 维 数 KN, 

2. 假设 训练 样本 {x;,d;) 六 1 是 无 噪声 的 ， 图 5. 3 的 隐藏 层 的 设计 可 通过 简单 地 利用 输入 问 
fix, 来 定义 径 向 基 函 数 g(x,%)(j 一 1,2,…,N) 的 中 心 。 而 为 了 设计 图 5.4 中 的 隐藏 层 ， 我 
们 需要 讨论 新 的 过 程 。 

下 一 节 将 对 于 隐藏 层 使 用 高 斯 函数 的 情况 ， 从 实际 的 角度 说 明 上 述 的 第 2 氮 。 


y=F (x) 





大 小 六 mm 的 大 小 为 K<N 的 大 小 为 1 的 
输入 层 隐藏 层 输出 层 


图 5.4 实际 RBF 网 络 的 结构 。 注 意 这 一 网 络 从 结构 上 和 图 5. 3 相似 ， 然 而 两 个 网 
络 是 不 同 的 ， 图 5.4 中 隐藏 层 的 大 小 小 于 图 5. 3 中 隐藏 层 的 大 小 
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5.5 上 KK- 均值 聚 类 


在 设计 图 5.4 的 RBF 网 络 时 ， 需 要 解决 的 一 个 关键 问题 是 如 何 利 用 无 标签 数据 来 计算 构 
成 隐藏 层 的 高 斯 单元 的 参数 。 换 句 话 说 ， 这 一 计算 是 在 非 监 督 方 式 下 完成 的 。 在 本 节 中 ， 我 们 
描述 关于 这 一 问题 的 根植 于 聚 类 的 一 个 解 ， 其 意义 如 下 : 

聚 类 是 非 监 督学 习 的 一 种 形式 ， 它 将 一 个 观测 集 ( 即 数据 点 ) 划分 到 自然 组 或 者 模式 聚 
类 。 聚 类 的 途径 是 测量 分 配给 每 个 聚 类 的 观测 对 之 间 的 相似 性 以 最 小 化 一 个 指定 的 代价 函数 。 


有 很 多 聚 类 技术 可 供 选 择 。 我 们 选择 重点 关注 所 谓 的 KK- 均 值 (K-means〉 的 算法 ， 因 为 
它 简单 易 实 现 ， 同 时 有 和 良好 的 性 能 ， 以 上 两 个 特征 使 得 该 算法 高 度 普及 。 

今 {x;} 六 表示 一 个 用 于 划分 到 个 聚 类 的 多 维 观 测 集 ， 其 中 天 小 于 观测 数 N 。 令 关系 : 

j=CQ), i = 1,2, N (5. 22) 

表示 一 个 多 对 一 映射 器 ， 称 为 编码 器 ， 它 将 第 i 个 观测 x, 根据 某 种 仍然 需要 定义 的 规则 分 配 到 
Si 个 聚 类 中 。 (细心 的 读者 会 奇怪 为 什么 我 们 选择 索引 了 来 表示 一 个 聚 类 ， 而 合乎 逻辑 的 选 
择 应 该 是 这 个 选择 的 理由 是 符号 & 被 用 于 表示 将 在 本 章 后 面 讨 论 的 核 函 数 .) 为 了 进行 这 
样 的 编码 ， 我 们 需要 在 向 量 x; 和 x 对 之 间 的 相似 性 度量 ， 记 为 4Cxi,xr )。 当 测度 d(x;,x; ) 足 
够 小 的 时 候 ，x 和 xz 被 分 配给 相同 的 聚 类 ; 否则 ， 它 们 钻 分 配给 不 同 的 聚 类 ， 

为 了 最 优化 这 个 聚 类 过 程 ， 我 们 引入 下 面 的 代价 函数 (Hastie 等 ，2001): 


; 1 ~ 
HO) = 52 2 Dado) (5. 23) 


j=1 C= C=} 


对 于 预先 指定 的 开 ， 要 求 找 到 使 得 代价 函数 J(C) 最 小 的 编码 器 C(i) =j。 在 讨论 中 ， 我 们 注意 
到 编码 器 C 是 未 知 的 一 一 因此 代价 函数 了 依赖 于 C。 

在 玉 - 均 值 聚 类 中 ， 欧 几 里 得 范 数 的 平方 用 于 定义 在 观测 x 和 x 之 间 的 相似 性 度量 ， 如 下 
STAR : 





d(x x) = || x, x ||’ (5. 24) 
因此 ， 将 式 (5. 24) 代 人 式 (5. 23) 中 ， 我 们 有 
KOs 3 Dire (5. 25) 
现在 给 出 如 下 两 点 : 
1. 观测 x, 和 xz 之 间 的 欧 几 里 得 距离 的 平方 是 对 称 的 ， 即 
xx ?= xa 


2. 式 (5. 25) 的 内 部 和 可 以 如 下 解释 : 对 于 给 定 的 xr ， 编 码 器 C 将 所 有 和 x; 最 近 的 观测 x 
分 配给 聚 类 7 。 除 了 一 个 尺度 因子 ， 这 样 分 配 的 观测 x; 的 和 是 属于 聚 类 j 的 均值 向 量 估计 ; 这 
里 的 尺度 因子 是 1/N;， 其 中 Ni ERX) 中 数据 点 的 个 数 。 
由 于 这 两 点 ， 可 以 将 式 (5. 25) 简 化 为 : 
O= DD, Iw I? (5. 26) 


SCAG, 记 为 属于 聚 类 j 的 “估计 ”均值 向 量 !。 实 际 上 ， 均 值 记 可 以 看 成 是 聚 类 j 的 中 心 。 受 
式 (5. 26) 的 启发 ， 现 在 可 以 将 聚 类 问题 重新 描述 如 下 : 

给 定 N 个 观测 值 的 集合 ， 通 过 以 下 方式 寻找 编码 器 C: 将 这 些 观测 值 分 配给 天 个 聚 类 ， 
使 得 在 每 个 聚 类 中 ， 绘 定 的 观测 值 与 聚 类 均值 的 不 相似 性 的 平均 度量 最 小 。 

当然 ， 正 是 由 于 这 一 陈述 的 本 质 ， 这 里 所 描述 的 聚 类 技术 通常 称 为 K- 均 值 算 法 。 
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对 于 式 (5. 26) 中 定义 的 代价 函数 JIC) 的 解释 ， 我 们 可 以 这 样 说 ， 对 于 给 定 的 编码 器 C, 
除了 尺度 因子 1/Ni， 这 一 等 式 的 内 部 和 是 聚 类 7 所属 观 测 的 方差 的 估计 ， 如 下 所 示 : 


= 21 xe Il’ (5. 27) 


HM. H ORE AR OT R J OA EM at 编码 器 C 将 所 有 NN 个 观测 分 配给 K 个 聂 类 的 总 REF 
差 的 测度 。 

当 编 码 器 C 未 知 时 ， 如 何 最 小 化 代价 函数 J(C)? 为 了 解决 这 一 关键 问题 ， 我 们 利用 迭代 
下 降 算法 ， 这 一 算法 的 每 一 次 迭代 包含 两 步 最 优化 。 第 一 步 对 于 给 定 的 编码 器 C 利用 最 邻近 规 
则 来 最 小 化 式 (5. 26) 的 代价 函数 J(C) (关于 均值 向 量 y)。 第 二 步 对 给 定 的 均值 向 量 k; 最 小 化 
AG. 26) 的 内 部 和 “(关于 编码 器 C)。 连 续 进 行 这 样 的 两 步 迭 代 过 程 直 到 收敛 为 止 。 

因此 ， 从 数学 上 ，K- 均 值 算法 分 两 步 进 行 ”: 

第 1 步 ”对 于 给 定 的 编码 器 C， 关 于 聚 类 均值 {所 ) 和 ;最 小 化 总 诊 类 方差 ， 即 完成 下 面 的 
最 小 化 : 

nia > lx- |}? 对 于 给 定 的 C (5. 28) 


ha j=i CO =} 


第 2 步 在 第 1 步 中 已 ae we RARAHI (py ) 关 ， 下 一 步 最 小 化 编码 大: 


Ci) = arg min |x — py |]? (5. 29) 
从 一 些 最 初 选 择 的 编码 器 C 开始 ， 算 法 在 这 这 两 步 之 间 来 回 进行 ， 直 到 在 聚 类 分 配 上 没有 进 一 步 
的 变化 为 止 。 

这 两 步 中 的 每 一 步 都 被 设计 为 按 其 自身 的 方式 降低 代价 冰 数 J(C); 因此 ， 算 法 的 收 剑 性 
是 可 以 保证 的 。 然 而 ， 由 于 算法 缺少 全 局 最 优 淮 则 ， 结 果 可 能 收敛 于 局 部 最 小 值 ， 导 致 对 窜 类 
分 配 的 次 优 解 。 无 论 如 何 ， 这 一 算法 具有 实际 上 的 优势 ， 

1. 氏 - 均 值 算法 是 计算 有 效 的 ， 其 计算 复杂 度 对 于 聚 类 数目 而 言 是 线性 的 

2. 当 聚 类 紧 致 分 布 在 数据 空间 中 时 ， 它 们 由 算法 忠实 再 现 。 

最 后 ， 为 了 初始 化 K- 均 值 算法 ， 建议 采用 以 下 步骤 ， 对 建议 的 大 小 K， 对 于 均值 
{E;)*,， 随 机 选择 不 同 的 值 来 开始 算法 ， 然 后 选择 使 得 式 (5. 26) 中 的 双重 和 具有 最 小 值 的 集合 
(Hastie 等 ，2001) 。 

K- 均 值 算法 适用 于 Cover 定理 框架 

K- 均 值 算 法 对 输入 信号 x 应 用 了 非 线性 变换 。 我 们 这 样 说 是 因为 其 不 相似 测度 〈 即 这 -- 一 算 
法 的 基础 ， 欧 几 里 得 距离 的 平方 | xx, ||?) 是 对 于 给 定 的 聚 类 中 心 x, 而 言 关于 输入 信号 x 的 
非 线 性 函数 。 而 且 ， 由 KK- 均值 算法 揭示 的 每 个 诊 类 定义 了 隐藏 层 的 一 个 特殊 的 计算 单元 ， 如 
果 聚 类 数目 K 足够 大 ，K- 均 值 算 法 将 满足 Cover 定理 的 其 他 要 求 ， 即 隐藏 层 维 数 足够 高 。 因 
此 得 出 结论 ;根据 这 一 定理 ， 开 -均值 算法 确实 有 足够 的 计算 能 力 将 非 线 性 的 可 分 离 模 式 集合 
转化 为 可 分 离 模式 。 

现在 这 一 目的 已 经 得 到 了 满足 ， 我 们 就 可 以 考虑 设计 RBF 网 络 的 线性 输出 层 了 


5.6 权 向 量 的 递归 最 小 二 乘 舍 计 


开 - 均 值 算法 的 计算 是 用 递归 方式 来 实现 的 。 因 此 需要 重 做 最 小 二 乘法 一 一 在 第 2 章 中 讨论 

过 一 对 RBF 网 络 输出 层 的 权重 向 量 的 计算 ， 也 用 递归 的 方式 来 实现 。 为 了 这 一 目的 ， 我 们 
HRO. 23) 改 写 为 以 下 形式 

Rn) Wn) = r(n), n 一 1,2,…， (5. 30 ) 


ww ai bbt.com TWOAOOO0 





154 第 5 章 RHAI E E a k g 


这 里 所 有 三 个 量 都 表达 为 离散 时 间 二 的 函数 。 在 书写 这 个 统计 学 上 称 为 法 方程 的 时 候 ， 我 们 引 
人 了 三 个 项 : 
1. 隐藏 单元 输出 的 KXK 相关 函数 ， 由 下 式 定 义 : 


R) = 之 中心) PT Cx:) (6.31) 
其 中 
中 (xi; ) = LOOX: 9X) OX Xe) ott DOCK XK) |? (5. 32) 
和 
paux) = exp(— => | x; 一 X; I) j= 1.2K (5:33) 
+? } 20° z 1 9 , * . 
2. RBF 网 络 输出 的 期 望 啊 应 和 隐藏 单元 输出 之 间 的 关头 1 互 相关 向 量 ， 和 定义 为 : 
rin) = >) q(x) dG) (5. 34) 


3. 未 知 权 值 向 量 多 (2) ， 在 最 小 二 乘 下 最 优化 。 

要 求 对 权 值 向 量 w(z) 求 解 式 (5. 30) 的 法 方程 。 当 然 ， 可 以 首先 计算 相关 答 阵 RC) SDE 
阵 ， 然 后 将 求 得 的 逆 和 矩阵 R-:(z) 和 互相 关 向 量 r(z) 相 乘 ， 这 就 是 最 小 二 乘法 所 做 的 。 然 而 ， 
当 隐藏 层 大 小 K 很 大 时 ， 通 常情 形 下 对 于 n= K 计算 道 矩 阵 R-:(m) 是 一 个 吃力 的 任务 。 所 计 
划 的 运用 最 小 二 乘法 的 递归 执行 将 应 对 这 一 计算 困难 。 其 结果 算法 称 为 递归 最 小 二 乘 (RLS) 
算法 *， 关 于 这 一 算法 的 推导 将 在 下 面 讨论 。 
RLS 算法 

通过 重新 组 织 式 (5. 34) 的 互相 关 向 量 r(z) 来 开始 推导 RLS 算法 ， 如 下 所 示 : 


rin) = >) O(x,)dG) +0(x,)d(n) = r(n— 1) + O(x, ) dn) 


= R(n— 1) ŵn — 1) + b(x,) dm) (5. 35) 
其 中 ,在 第 一 行将 相对 于 i 二 7 的 项 从 式 (5. 34) 的 和 中 独立 出 来 ， 最 后 一 行 利 用 了 式 (5. 30), 
用 nn 一 1 来 代替 mn。 然后 ， 在 式 (5. 35) 的 右边 有 目的 地 加 上 项 中 (n) 中 Cn)Wwln 一 1) 并 在 等 式 的 为 
一 部 分 减 去 相同 项 ， 使 得 方程 本 身 没 有 改变 ; 因此 可 以 写 出 (在 提取 公共 因子 后 ): 
rín) = [R(n— 1) +0) Pm] Cna — 1) +o Ldn — Cn) Wn — 1) ] (5.36) 
在 式 (5. 36) 右 边 第 一 个 方 括号 中 的 表达 式 被 认为 是 相关 函数 : 
R(n) = R(n— 1) + OM) $7 (n) (5. 37) 


在 式 (5. 36) 右 边 第 二 个 方 括号 中 的 表达 式 中 ， 引 入 了 一 个 新 的 项 ， 
a(n) = d(n) — 07 (2) w(n— 1) = d(n) — Ww’ (n— 1) O(n) (5..38) 


这 一 新 的 项 称 为 先 验 估计 误差 ， 这 里 使 用 “ 先 验 ” 是 为 了 强调 估计 误差 a(n) 是 基于 权 值 问 

量 铺 (n 一 1) 的 老 的 估计 的 《 即 在 权 值 估计 被 更 新 “之 前 ”)。aln) 也 称 为 “革新 ”， 因 为 租 入 中 Cn) 

中 的 输入 向 量 x(n) 和 其 相应 的 期 望 响应 dm) 表 示 第 nn 步 时 间 估 计时 作用 于 算法 的 “新 ”信息 。 
回 到 式 (5. 36)， 利 用 式 (5. 37) 和 式 (5. 38) 将 问题 简化 为 : 


rim) = R(n) Wn— 1) + O(n) a(n) (5. 39) 
相应 地 ， 将 这 一 方程 应 用 到 式 (5. 30) 中 得 到 
Rn) Win) = RCn) Wn — 19+ b(n) a(n) (5. 40) 
这 可 以 表达 为 更 新 权 值 的 期 望 形式 ， 如 下 所 示 : 
Win) = Win— 1) R'a) O(Cn)a(n) (5. 41) 


这 里 在 式 (5. 40) 的 两 边 同 时 乘 以 道 矩 阵 R-:(Cz) 。 然 而 ， 为 了 以 计算 有 效 方 式 来 实现 这 一 更 新 ， 
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我 们 需要 相应 的 通过 给 定 其 过 去 值 R-: (n 一 1) 来 计算 逆 和 矩阵 R-:() 的 公式 。 这 一 问题 将 在 下 
面 讨论 。 | 
计算 R-'(n) 的 递归 公式 

回 到 式 (5. 37)， 可 以 看 到 确实 有 一 个 公式 递归 地 更 新 相关 和 矩阵 R(xn)。 我 们 关注 这 一 递归 
式 ， 通 过 利用 矩阵 逆 引 理 得 到 道 矩 阵 R-!'(n) 的 递归 形式 ， 而 矩阵 逆 引 理 已 经 在 4.14 节 讨 论 
过 了 。 

作为 扼要 概述 ， 考 虑 矩阵 : 

A 一 了 -二 CDC- (5.42) 

这 里 假设 矩阵 B 是 非 奇 异 的 且 和 抢 阵 B-: 因 而 存在 。 和 矩阵 A 和 B 具有 相同 维 数 ， 和 矩阵 D 是 另 一 个 
具有 不 同 维 数 的 非 奇 异 矩 阵 ， 符 阵 C 是 具有 合适 维 数 的 矩形 矩阵 。 根 据 和 矩阵 逆 引 理 ， 得 到 : 


A~! = B—BC(D+C'BC)'C’B (5. 43) 
对 于 这 个 问题 ， 使 用 式 (5. 37) 来 做 如 下 标示 : 
A = R(n) 
了 B = R(n—1) 
C = &(n) 
D= 1 


相应 地 ， 式 (5. 43) 作 用 于 这 一 矩阵 特殊 集 就 产生 : 
R- (2 一 1) 中 (2) OCW R On — 1) 


Rn 一 Ra 一 1) 一 1 FOR (n 1) O(n) (5. 44) 
这 里 ， 在 方程 右 端 第 二 项 ， 我 们 利用 了 相关 和 抢 阵 的 对 称 性 ; BE 
R’(n—1) = R(n— 1) 
为 了 简化 RLS 算法 的 公式 ， 我 们 现在 介绍 两 个 新 的 定义 : 
1. R! (n)=P(n) 
因此 ， 将 式 (5. 44) 重 写 为 : 
外 (5. 45) 


1+67(n)P(n— 1) b(n) 
这 里 方程 右边 的 分 母 是 二 次 形式 因而 是 一 个 标量 。 
为 了 说 明 P(z) ， 考 虑 线性 回归 模型 : 
d(n) = w' b(n) eln) 
作为 期 望 响应 dln) 的 一 般 模 型 ， 中 (n) 是 回归 量 。 假 设 附 加 噪声 项 e《n) 为 白 哄 ， 具有 0 均值 和 
co 的 方差 。 然 后 ， 将 未 知 权 值 向 量 w 看 成 模型 的 状态 且 冯 (nn) 是 由 RLS 算法 产生 的 估计， 定义 
”状态 误差 协 方差 矩阵 如 下 : 


| EL Cw — Wn) Cw — WORT] = gtP(n) (5. 46) 
对 于 这 一 结果 的 证 明 在 习题 5. 5 中 给 出 。 
2. g(n) = R” (n) b(n) = PCz) O(n) (5. 47) 


新 的 项 g(n) 称 为 RLS 算法 的 增益 向 量 (gain vector), AA, 根据 式 (5. 41) 可 以 将 先 验 估 
计 误 差 a(n) 和 g(x) 的 乘积 看 成 是 将 老 的 估计 色 (n 一 1) 更 新 到 新 值 欠 (ww) 的 校正 ， 如 下 所 未 : 


win) = Win—1) 4+ gn)al(n) (5. 48) 
RLS 算法 小 结 - 
有 了 式 (5. 45) 、 式 (5. 47) 、 式 (5. 38) 和 式 (5. 48) ， 根 据 这 样 的 顺序 ， 现 在 可 以 给 出 如 下 
RLS 算 法 的 小 结 : l 
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= P(n — 1) b(n) $T (mn) P(n— 1) 
PO Pl ae ee 
sa R 1+67(n)P™— 1) 中 (7) 


gln) = P(n) b(n) 
aln) = d(n) — Wi (n— 1) b(n) 
Wn) = Win— 1) +glan)aln) 
为 了 初始 化 这 一 算法 ， 令 
w(0) 一 0 
且 
P(0) 一 111 A 是 小 的 正和 常数 
注意 算法 初始 化 中 使 用 的 4 提供 了 代价 阔 数 中 正则 化 参数 的 规则 ， 
w EE > a -wW OD + all wl? 
这 里 4A 选择 相对 较 小 的 数 ， 这 是 一 个 典型 的 情况 ， 然 后 ， 我 们 非 直 接地 确认 训练 样本 (x), 
dC) NE . 


5.7 RBF 网 络 的 混合 学 习 过 程 


根据 5. 5 节 介 绍 的 到 -均值 聚 类 算法 和 5.6 节 推 导 的 递归 最 小 二 乘 RLS 算法 ， 现 在 我 
们 可 以 给 出 图 5.4 的 RBF 网 络 的 混合 学 习 过 程 。 首 先 将 天 -均值 算法 用 于 训练 隐藏 层 ， 然后 利 
用 RLS 算法 来 训练 输出 层 。 此 后 ， 我 们 将 这 一 混合 学 习 过 程 称 为 “天 - 均 仁 ，RLS” 算 法 ， 目 
的 是 用 下 面 的 过 程 来 训练 RBF 网 络 。 
输入 层 ”输入 层 的 大 小 是 由 输入 向 量 x 的 维 数 决定 的 ， 记 为 m o 
隐藏 层 
1. 隐藏 层 的 大 小 m 是 由 计划 的 聚 类 数 K 决定 的 。 事 实 上， 参数 K 可 以 看 成 是 在 设计 者 
控制 下 的 自由 度 。 因 此 ， 参 数 K 是 模型 选择 问题 的 关键 并 因而 不 仅 控 制 者 性 能 而 且 控 制 着 网 
络 的 计算 复杂 度 。 
2. 聚 类 均值 外 ， 由 工作 于 输入 向 量 作为 无 标志 样本 (x;} 人 Ct 之 上 的 -均值 算法 来 计算 ， 决 
定 了 分 配给 隐藏 单 元 7 二 1,2,…,K eM oC: ox AFD x;。 
3. 为 了 简化 设计 ， 记 为 e 的 相同 的 宽度 被 分 配给 所 有 的 高 斯 图 数 ， 和 天 -均值 算法 揭示 的 
中 心 的 散布 相 一 致 ， 如 下 所 不 : 
| 0 = Bmax (5.49) 
J2K 
这 里 KK 是 中 心 个 数 ，d: 是 它们 之 间 的 最 大 距离 Lowe，1989)。 这 一 公式 保证 了 各 个 高 斯 单 
元 不 是 太 人 尖峰 也 不 是 太平 坦 ; 这 两 种 极端 情况 在 实际 中 都 可 以 得 到 避免。 
输出 层 ” 一旦 隐藏 层 的 训练 完成 后 ， 就 可 以 开始 输出 层 的 训练 了 。 令 KX 疝 量 
OX; ,Xi ) 
ia OE 
PCX; ,Xx ) 
定义 为 隐藏 层 K 个 单元 的 输出 。 这 个 向 量 是 响应 于 刺激 Zi,i = 1,2… ,NN 而 产生 的 。 因 此 ， 目 
前 所 考虑 过 的 输出 层 的 监督 训练 中 ， 训 练 样本 可 和 定义 为 (bCx),dij}h1, HA di EMMA x 的 
RBF 网 络 的 总 输出 的 期 望 响 应 。 这 一 训练 是 通过 RLS 算法 来 进行 的 。 一 旦 网 络 训 练 完成 ， 就 
可 以 开始 使 用 没有 出 现 过 的 数据 来 测试 整个 网 络 。 
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“天 -均值 ，RLS” 算 法 的 一 个 有 了 极 引 力 的 特征 是 它 的 计算 高 效 性 ， 这 是 由 于 天 -均值 和 RLS 
算法 都 在 其 各 目的 方式 上 是 计算 高 效 的 这 一 事实 。 这 一 算法 唯一 可 疑 的 特征 是 缺少 将 隐藏 层 的 
训练 和 输出 层 的 训练 结合 起 来 的 总 的 最 优 准 则 ， 从 而 在 统计 意义 上 保证 整个 系统 的 最 优 性 。 


5.8 计算 机 实验 : 模式 分 类 


本 节 我 们 用 一 个 计算 机 实验 来 评价 用 于 训练 RBF 网 络 的 “天 -均值 ，RLS” 算 法 的 模式 分 
类 性 能 。 这 一 实验 所 使 用 的 数据 是 通过 对 图 1. 8 的 双 月 结构 随机 采样 而 获得 的 。 这 一 实验 的 具 
体 目 的 是 比较 其 性 能 : 通过 这 一 途径 训练 的 网 络 的 性 能 和 通过 利用 反 向 传播 算法 训练 的 多 层 感 
知 器 (MLP) 的 性 能 。 而 MLP 的 性 能 已 经 在 第 4. 7 节 完 成 的 实验 中 集中 讨论 了 。 

RBF 网 络 的 隐藏 层 选择 包含 20 个 高 斯 单元 ， 因 此 这 和 第 4.7 节 中 MLP Fy Bet et Fes OK H T 
相同 的 大 小 。 为 了 训练 RBF 网 络 ， 使 用 了 1 000 个 数据 点 ; 对 于 测试 ， 使 用 了 2 000 个 数据 
点 。 与 MLP 实验 的 方式 相似 ， 对 两 个 不 同 的 双 月 图 设置 ，vd 一 一 5 Md=—6, Hf RBF 实 
验 ， 后 者 是 这 两 者 中 更 难 的 一 个 。 

(a) 489: d=—5 

FIX TERA ZEHREN M., K=20 被 分 配给 聚 类 数 〈 即 隐藏 单元 个 数 )。 通 过 应 用 
K- 均 值 算 法 作用 于 训练 样本 的 无 标志 部 分 ， 聚 类 的 中 心 以 及 因此 而 来 的 隐藏 层 中 高 斯 单元 的 
中 心 就 被 决定 了 。 由 于 中 心 的 散布 是 已 知 的 ， 则 利用 式 (5. 49) 的 公式 来 计算 分 配给 高 斯 单元 的 
共同 宽 o 二 2.6。RBF 网 络 隐藏 层 的 设计 就 完成 了 。 最 后 ，RLS 算法 被 用 于 训练 输出 屋 ， 从 而 
计算 决策 边界 ， 为 测试 阶段 准备 好 了 途径 。 

实验 第 一 部 分 的 结果 在 图 5. 5 中 给 出 。 图 5. 5a 给 出 了 RLS 算法 的 学 习 曲 线 ， 图 5. ob 给 
出 了 RBF 网 络 所 学 习 的 决策 边界 。 如 图 5. 5a 所 示 ， 在 两 个 回合 的 训练 之 后 ， 输 出 层 的 设计 就 
完成 了 。 图 5. 5b 确认 了 RBF 网 络 几 乎 能 够 完美 地 将 两 个 月 亮 形状 的 模式 分 离开 。 

(b) 径直 分 隔 : qd 一 一 6 

然后 重复 RBF 网 络 关 于 模式 分 类 的 实验 ， 这 一 次 对 于 图 1. 8 的 双 月 结构 给 出 了 更 加 困难 
的 设置 。 这 次 ， 共 同 宽 co 一 2. 4 被 分 配给 20 个 高 斯 单元 ， 该 分 配 再 次 根据 式 (5. 49) 给 出 。 


学 习 曲 线 利用 RBF 网 络 分 类 ， 距 离 =-5， 半 径 =10， 宽 =6 
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图 5.5 当 d 一 一 5 时 用 K- 均 值 和 RLS 算法 训练 的 RBF 网 络 。 图 a 中 的 MSE 表示 均 方 误差 


图 5. 6 中 给 出 实验 第 二 部 分 的 结果 ， 图 5. 6a 给 出 了 RLS 算法 的 学 习 曲 线 ， 图 5. 6b 给 出 
了 在 “K- 均 值 ，RLS” 算 法 训练 结果 下 RBF 网 络 学 习 的 决策 边界 。 在 2 000 个 测试 数据 点 中 总 
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共 报 告 有 10 个 分 类 错误 ， 产 生 的 识别 误差 率 是 0. 5%， 
对 于 实验 的 a) 部 分 和 b) 部 分 ， 在 RBF 网 络 的 单一 输出 处 的 分 类 阔 值 被 设 为 零 。 
学 习 曲 线 利用 RBF 网 络 分 类 ， 距 离 =-6， 半 径 =10， 宽 =6 


MSE 
oO 
x 





0 10 20 30 40 50 
合 数 
a) 学 习 曲 线 b) 测试 结果 


图 5.6 当 4d= 一 6 时 用 帮 - 均 值 和 RLS 算法 训练 的 RBF 网 络 。 图 5. 6a 中 的 MSE 表示 均 方 误差 


比较 MLP 和 RBF 结果 

将 本 节 中 RBF 网 络 完成 的 实验 (a) 和 (CD) 的 结果 和 4. 7 节 中 MLP 完成 的 对 应 的 实验 结 
果 相 比较 ， 我 们 得 出 如 下 绪论 : 

1. 用 “KK- 均 值 ，RLS” 算 法 训练 的 RBF 网 络 胜 过 用 反 向 传播 算法 训练 的 MLP。 具 体 来 
说 ， 当 双 月 结 构 中 d 二 一 5 时 MLP 不 能 达到 完美 分 类 ， 而 RBF 网 络 报告 了 近乎 完美 的 分 类 。 
对 于 困难 的 设置 d=—6, RBF 网 络 产生 的 误 识 率 是 0.5%， 比 MLP 算法 对 于 容易 的 设置 d= 
一 5 时 所 得 到 的 误 识 率 0. 15% 要 稍微 差 一 些 。 当 然 ，MLP 的 设计 可 以 得 到 改进 。 然 而 ， 我 们 
同样 可 以 说 RBF 网 络 也 可 以 得 到 改进 。 

2.RBF 网 络 的 训练 过 程 明 显 比 MLP 的 训练 过 程 快 。 


5.9 高 斯 隐藏 单元 的 解释 


感受 野 思 想 

在 神经 生物 学 中 ， 感 受 野 (receptive field) 定义 为 “感觉 场 的 区 域 ， 其 中 充分 的 感觉 刺激 
将 引起 响应 ”(Churchland and Sejnowski1，1992)。 一 个 有 趣 的 现象 是 ， 在 视 皮 层 的 更 高 区 域 
中 细胞 的 感受 野 倾 问 于 撑 大 于 视 党 系统 的 早期 阶段 的 细胞 。 

根据 感受 野 这 一 神经 生物 学 上 的 定义 ， 我 们 可 以 想象 每 个 神经 网 络 的 隐藏 单元 都 具有 一 
其 自身 的 感受 野 。 实 际 上 ， 我 们 可 以 继续 做 如 下 对 应 的 陈述 


神经 网 络 中 计算 单元 (如 隐藏 单元 ) 的 感受 野 ， 通 常 是 指 感 觉 场 (例如 ， 源 节点 的 输入 
层 ) 的 区 域 ， 其 中 充分 的 感觉 刺激 (如 模式 ) 将 引起 响应 。 


一 定义 可 以 很 好 地 等 价 应 用 于 多 层 感 知 器 和 RBF 网络。 然而， 关于 感受 野 的 数学 描述 
在 REF T PA 
令 p(x,x;) 定 义 计算 单元 关于 输入 向 量 x 的 函数 依赖 ,这 一 单元 是 以 x 为 中 心 的 。 根据 
Xu 等 (1994), 计算 单元 的 感受 野 定 义 为 
p(x) = g(x,x;) —a (5. 50) 
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这 里 a 是 某 个 正常 数 。 用 文字 表达 ， 这 一 方程 说 明 ， 函 数 p(x,x) 的 感受 野 是 输入 向 量 x 的 范 
a eT ee ar et 
例 2 高 斯 隐藏 单元 的 感受 野 
考虑 由 下 式 定 义 的 高 斯 计算 单元 
p(X,X;) = exp(~ 53 | x— x; || | 
根据 式 (5. 50)， 这 一 单元 的 感受 野 是 
yx) = exp(— 55 llx— x II*)—a 
这 里 a<1。y(x) 的 最 小 允许 值 是 零 ， 对 此 方程 产生 
| x—x, | =o,/2log(=) 


因此 高 斯 函数 g(x;x;) 的 感受 野 由 多 维 曲面 定义 ， 在 以 点 x 为 中 心 的 周围 以 一 种 类 似 球 体 的 
方式 对 称 。 感 受 野 的 类 似 球体 对 称 性 质 是 从 高 斯 泣 数 自身 自然 继承 的 。 

图 5.7 给 出 了 这 一 曲面 的 两 个 具体 例子 : 

1. 一 维 感受 野 jg(z)， 对 此 输入 工 的 范围 被 限制 于 闭 区 间 [Ceo V2log(1/a))，(zi 十 


a V2log(1/a)))j] 中 ， 如 图 5.7a 所 示 。 
2. 二 维 感受 野 xX), MHRA x HDR POA x SL arn srn] 的 圆 盘 上 ， 半 径 


是 o V2log(1/a)， 如 图 5.7b 所 示 。 a 


x, 
i oV 2log (1/a) 





2o V2log (1/a) 
一 


0 
a) b) 


图 5.7 ”对 两 个 具体 情形 关于 感受 野 概 念 的 图 示 : a) 一 维 ; b) 二 维 


高 斯 畏 数 作为 核 的 解释 
高 斯 函数 p(x,x ) 的 另 一 个 重要 方面 是 它 可 以 被 解释 为 一 个 核 ， 这 是 在 统计 学 文献 中 广泛 


使 用 的 术语 ; 在 机 器 学 习 文 献 中 的 使 用 也 在 渐渐 普及 。 
考虑 一 个 依赖 于 输入 向 量 x% 的 孙 数 ， 其 中 心 处 在 欧 几 里 得 空间 的 原点 。 记 为 k(x) 的 核 沼 
数 形式 的 基础 是 ， 这 一 函数 具有 和 随机 变量 的 概率 密度 销 数 相似 的 性 质 : 
性 质 1 核 &Cx) 是 关于 X 连 续 、 有 界 的 实 函 数 ， 关 于 原点 对 称 ， 在 原点 处 获得 最 大 值 。 
性 质 2 在 核 上 (x) 的 曲面 下 的 总 体积 是 1; 即 对 于 一 个 m 维 的 向 量 xX， 我 们 有 


| #00dx = 1 


除了 一 个 尺度 因子 ， 对 于 中 心 x 处 于 原点 时 高 斯 函数 p(x,xi 满足 这 两 个 性 质 。 对 于 非 零 


的 Xx; 性质 1 和 2 仍然 保持 ， 因 为 x; 代替 了 原点 。 
正 由 于 高 斯 函数 可 以 解释 为 核 ， 因 此 本 章 大 标题 采用 了 术语 “ 核 方 法 ”。 
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5.10 核 回 归 及 其 与 RBF 网 络 的 关系 


在 第 5. 3 节 中 介绍 的 RBF 网 络 理论 是 建立 在 插值 概念 之 上 的 。 在 本 节 中 ， 我 们 采取 另 一 
个 观点 -一 - 核 回 归 ， 这 是 建立 在 密度 佑 计 概 念 之 上 的 。 

具体 来 说 ， 考 虑 由 下 式 定 义 的 非 线 性 回归 模型 : 

y 5 fx) tHe), 2132s (5.51) 

其 中 eE ARN, HHEN OONAN o. ATEREA, BAAS y RE T AI E r 
用 的 di) 来 标记 模型 的 输出 。 作 为 未 知 回归 函数 f(x) 的 合理 估计 ， RATA ABA x K T R 
测量 〈 即 模型 输出 y 的 值 ) 的 均值 。 然 而 ， 要 使 这 一 途径 成 功 ， 局 部 平均 将 锌 限制 在 点 x 周围 
的 小 邻 域 〈( 即 感受 野 〉 中 的 观测 值 里 ， 因 为 通常 对 应 于 远离 x 的 点 的 观测 将 具有 不 同 的 均值 。 
更 精确 地 ， 我 们 发 现 未 知 函 数 f(x) 等 价 于 给 定 回归 量 x 时 观测 y 的 条 件 均值 ， 如 下 所 示 : 


f(x) = ELy|x] = | yPyix(y|x)dy (5. 52) 


这 里 py1x(y|x) 是 条 件 概率 密度 函数 ‘pdf)， 该 函数 是 在 随机 疝 量 XX 赋值 为 z 的 条 件 下 ， 关 于 
随机 变量 Y 函数 " 。 由 概率 理论 ， 我 们 有 
= pry [p) (5. 53) 


Prix Cy |x) px (x) 


这 里 是 px (x) EX H pdf, p Ooy Æ X MY 的 联合 pdf。 因 此 ， 将 式 (5.53) 代 入 到 式 (5. 52), 
获得 下 面 的 回归 清 数 公式 : 


| year y)dy 
px) 

我 们 的 特别 兴趣 在 于 pxy (x,y) 的 联合 概率 密度 函数 未 知 而 我 们 所 能 用 的 仅 是 训练 样本 
(xy N 这 一 情况 。 为 了 估计 pxy(Cx,y) 以 及 px(Cx)， 可 以 利用 熟知 的 Parzen-Rosenblatt # 
度 估 计 (Rosenblatt, 1956, 1970; Parzen, 1962) 这 一 非 参数 估计 。 这 一 估计 形成 的 基础 在 
于 核 &Cx) 的 可 用 人 性。 假设 观测 x, ,xs ,… xy 是 统计 独立 同 分 布 的 《〈iid)， 我 们 可 以 定义 fr GO 
Parzen-Rosenblatt 察 度 佑 计 如 下 : 


py (x) = oe H(A) xE R”™ (5. 55) 


i=] 


这 里 平滑 参数 有 是正 数 ， 称 为 带宽 ， 或 简单 称 为 宽 ; h 控制 着 核 的 大 小 。Parzen-Rosenblatt # 
度 舍 计 的 重要 性 质 是 其 为 一 致 估计”*《 即 渐进 无 偏 )， 意 味 着 如 果 h 王 h(N) 被 选择 为 关于 N 的 
函数 使 得 


fax) = (5.54) 





limh (N) =) 
则 k 
lim EL px (x) |] = px(x) 
为 了 保持 后 一 方程 ，z DUES, OO MEER 
与 式 (5.55) 相 似 的 方式 ， 可 以 公式 化 联合 概率 密度 函数 px,y (x,y) 的 Parzen-Rosenblatt 密 
度 估计 : 





~ 1 ~ X — X; vo MY: ` m 
bt 二 xEeR"yER (5. 56) 
EF y OM py v(Cx,y) 积 分 ， 得 到 式 (5. 55) py (Xx)。 


而 且 ， 
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ee _ 1 “(Kk — x; S? 一 y; 
| y Pry OG dy 一 Nim pa : ) ve (2 > ) dy 
通过 设置 :一 (y 一 y1)/h 来 改变 积分 变量 并 运用 核 &(，) 的 性 质 2， 得 到 如 下 结果 : 


l» pxy (XY dy = pe yt ( A (5.57) 
因此 ， 利 用 式 (5. 57) 和 式 (5. 55) 作 为 式 (5. 54) 相 应 的 分 子 和 分 母 的 量 的 估计 ， 得 到 如 下 在 消除 


共同 项 之 后 关于 回归 省 数 FOO RAT : 








Soa (FE) 
Fare Jaee (5. 58) 
Sa(* =) 


这 里 ， 为 了 表达 清晰 ， 在 分 母 部 分 ， 用 j; 代替 i 作为 和 的 索引 。 
有 两 个 观点 来 考察 式 (5. 58) 的 通 近 函数 Cx): 
1. Nadaraya-Watson 回归 估计 。 第 一 个 观点 ， 定 义 归 一 权 子 数 





(==) 
Wa,i Cx) E N e a i = 2 N (5. 59) 
KX; 
D3 
有 
Wri =1, 对 于 所 有 的 x (5. 60) 
然后 可 以 重 写 式 (5. 58) 的 核 回 归 估 计 ， 简 化 形式 为 : 
F(x) = >) Wye)» (5.61) 


它 将 F(x) IR WA RR. RO. BL A RK Wax, 让 形式 是 由 
Nadaraya(1964) 和 Watson(1964) 提出 的 ， 所 以 式 (5.61) 所 示 的 逼近 函数 通常 称 为 Nadaraya- 
Watson 回归 估计 器 (NWRE)"”. 

2. 归 一 化 的 RBF 网 络 。 第 二 个 观点 ， 假 设 核 &(x) 是 球 对 称 的 ， 这 样 我 们 就 可 以 令 


(15) = A 对 于 所 有 的 i (5. 62) 
这 里 | . 站 表示 包含 向 量 的 欧 几 里 得 范 数 (Krzyzak 等 ，1996) 。 相 应 地 ， 定 义 归 一 化 径 向 基 
KRON : | 
k{ | x — x: | 


=e See. STN (5. 63) 
S(T) 
其 中 ， 对 所 有 的 x 有 
DY buon) 一 1， 对 于 所 有 的 Xx (5. 64) 


bn (xx) PRY Pip N 表示 使 用 办 一 化 (normalization)。 
对 于 第 二 个 观点 所 考虑 的 回归 问题 ， 我 们 可 以 看 出 应 用 于 基 函 数 yn (x,x;) 的 “线性 权 值 ” 
w;， 就 是 回归 模型 中 对 应 于 x; MMB yo AS 
jy. =n 
重新 将 式 (5. 58) AY AN AIE ER RIB: 
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F(x) = Dy Wip (XX) (5. 65) 
sh (5. 65) 表 示 的 是 一 个 归 一 化 RBF 网 络 的 输入 -输出 映射 (Moody and Darken, 1989; Xu 等 ， 
1994)。 注 意 : 

OS pax) <1, MAW x fx, (5.66) ` 
因此 ，yn (x,xi) 可 以 解释 为 以 x%; 为 条 件 的 由 输入 向 量 x 描述 的 事件 的 概率 。 

式 (5. 63) 的 归 一 化 径 向 基 函 数 gn (x,Xi) 与 一 般 径 向 基 晴 数 的 不 同 之 处 在 于 yn x KDA 
个 组 成 归 一 化 因子 的 分 母 。 归 一 化 因子 是 关于 输入 向 量 x 的 固有 概率 密度 函数 。 因 此 ， 对 所 有 
的 x 基 函数 bn (x,x;) 的 i 二 1,2,…,NN 项 之 和 等 于 1， 即 式 (5. 64) 。 

多 元 高 斯 分 布 

一 般 说 来 可 以 选择 各 种 各 样 的 核 画 数 。 但 是 ， 理 论 和 实际 的 考虑 限制 了 我 们 的 选择 。 一 个 

广泛 使 用 的 核 消 数 是 多 元 高 斯 分 布 


5 _ |x| 
k(x) = el ; ) (5. 67) 


HH, m 是 输入 向 量 x 的 维 数 。 很 明显 ， 式 (5. 67) 所 示 的 核 &Cx) 具 有 球 对 称 性 。 假 设 使 用 相 
同 的 带宽 c，c 与 平滑 参数 h 对 每 一 个 高 斯 分 布 的 作用 相同 ， 且 以 数据 点 振作 为 核 图 数 的 中 心 ， 
可 写成 
一 XNV _ 1 Eseries 
(= | = CPE oa) ae ae ot = 1,2,°° sN (5. 68) 
因此 ， 使 用 式 (5. 68), Nadaraye Watson! 回归 估计 可 以 写成 


> exp (一 > | 


F(x) = > (5. 69) 
dyexe(— | I | ) 
其 中 分 母 项 表示 Parzen-Rosenblatt 密度 估计 器 ， 由 N serene XoXo ttt” Xn 为 中 心 的 多 元 


高 斯 分 布 之 和 构成 (Specht, 1991). 
相应 地 ， 将 式 (5. 68) 代 入 式 (5. 63) 和 式 (5.55)， 可 以 得 到 归 一 化 RBF 网 络 的 输入 -输出 映 


射 函 数 的 如 下 形式 : 


(5. 70) 


ERG. 69) ASE CS. TO), M E 与 输入 数据 点 《人 5) 亡 : 一致。 与 一 般 
径 向 基 函 数 相 同 ， 可 以 使 用 较 小 数量 的 归 一 化 径 向 基 函 数 ， 它 们 的 中 心 被 看 作 可 以 根据 某 种 局 
发 式 方法 选择 的 自由 参数 (Moody and Darken，1989)， 或 者 按 第 7 章 讨 论 的 原则 方式 来 确定 。 
5.11 小 结 和 讨论 


在 本 章 中 ， 我 们 集中 讨论 作为 多 层 感知 器 替代 的 径 向 基 函 数 (RBF) 网 络 。 和 第 4 章 讨论 
的 多 层 感知 器 相似 ，RBF 网 络 就 其 本 身 来 说 是 一 个 通用 远近 器 (Sandberg and Xu, 1997a, 
1997b) 。 它 们 基本 结构 上 的 不 同 可 总 绪 如 下 : 

在 多 层 感知 器 中 ， 函 数 和 逼近 是 通过 加 权 和 的 谱 套 集 来 定义 的 ， 而 RBF 网 络 中 逼近 是 由 单 
一 加 权 和 定义 的 。 
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设计 考虑 

RBF 网 络 的 设计 遵循 插值 理论 ， 这 从 数学 上 讲 是 精致 的 。 然 而 ， 从 实际 的 观点 ， 该 设计 
FRA AMARA. B—, VIERA REBAR. ot RBF 网 络 可 能 产生 误 人 歧途 的 结果 ， 
第 二 ， 当 训练 样本 的 大 小 很 大 时 ，RBF 网 络 的 隐藏 层 采用 和 训练 样本 相同 大 小 的 话 ， 将 会 浪 
费 计 算 资 源 。 

设计 RBF 网 络 的 更 实际 的 方法 是 遵循 5.5 节 到 5.7 节 描 述 的 混合 学 习 过 程 。 基 本 上 ， 这 
一 过 程 按 如 下 两 阶段 操作 ， 

。 第 一 阶段 应 用 KK- 均值 诊 类 算法 按 非 监督 方式 来 训练 隐藏 屋 。 典 型 地 ， 到 类 个 数 ， 也 殊 

是 隐藏 层 的 计算 单元 个 数 ， 明 显 小 于 训练 样本 的 大 小 。 

。 第 二 阶段 应 用 递归 最 小 二 乘法 来 计算 线性 输出 层 的 权 值 回 量 。 

这 两 阶段 设计 过 程 具 有 两 个 期 望 的 特征 : 计算 简单 性 和 加 速 收敛 性 。 
试验 结果 

5. 8 节 在 双 月 “ 玩 具 ” 问 题 上 的 计算 机 试验 结果 揭示 了 混合 “K- 均 值 ，RLS” 分 类 髓 能 够 
达到 令 人 印象 深刻 的 性 能 。 将 试验 的 结果 和 下 一 章 将 要 讨论 的 支持 向 量 机 SVM) 的 同样 试 
验 做 比较 的 时 候 ， 我 们 发 现 这 两 个 分 类 器 执行 得 非常 相似 。 然 而 ，“K- 均 值 ，RLS” 分 类 器 比 
SVM 收敛 速度 更 快 ， 需 要 更 少 的 计算 。 

值得 注意 的 是 Rifkin (2002) 在 他 的 博士 论文 中 ， 很 细致 地 比较 了 RLS 和 SVM 对 于 线性 
可 分 模式 的 分 类 ， 使 用 了 玩具 样本 的 选集 。 下 面 是 他 实验 结果 的 小 结 : 

。 RLS 和 SVM 分 类 器 表现 出 近乎 相同 的 性 能 。 

© 它们 都 对 训练 样本 中 异常 的 出 现 敏 感 。 

Rifkin(2002) 也 完成 了 图 像 分 类 的 试验 ， 使 用 了 两 个 不 同 的 数据 集合 : 

。 U.S. 邮政 服务 (USPS) 手写 字数 据 集 ， 包 括 7291 个 训练 样本 和 2007 个 测试 样本 。 
训练 集 包 含 6639 个 负 样 本 和 652 个 正 样 本 ， 而 测试 集 包 含 1807 个 负 样 本 和 200 TIE 
样本 。 

。 MIT 识别 集 ， 被 称 为 fjaces。 训 练 集 包含 2429 个 人 脸 和 4548 个 非 人 有 验 ， 测 试 集 包 合 
572 个 人 脸 和 23 573 个 非 人 脸 。 

对 于 USPS 数据 集 ， 报 告 指 出 非 线性 RLS 分 类 器 和 SVM 相 比 在 接收 机 工作 特性 (ROC) 
曲线 的 全 部 范围 上 完成 得 一 样 好 或 者 更 好 。ROC 曲线 画 出 了 当 使 用 单一 网 络 输出 时 在 变化 的 
ee BA LAS (true-positive rate) 和 错误 位 置 率 (false-positive rate) 的 图 ; 术语 
“ 率 ” 是 衡量 分 类 概率 的 另 一 个 途径 。 在 faces 上 完成 的 测试 产生 了 混合 结果 : 对 于 一 个 设计 参 
BRE, SVM 本 质 上 比 非 线性 RLS 分 类 器 完成 得 好 。 对 于 另 一 个 设计 参数 集合 ， 性 能 相近 ， 
我 们 要 指出 的 是 Rifkin(2002) 中 设计 非 线 性 RLS 分 类 器 的 隐藏 层 的 策略 和 本 章 中 考虑 的 K-45 
值 聚 类 算法 有 很 大 不 同 。 

一 个 重要 的 信息 是 ， 对 于 本 书 中 的 双 月 “ 玩 具 ” 实 验 以 及 Rifkin(2002) 报告 的 更 多 方面 
的 试验 来 说 ， 包 含 两 个 方面 : 

1. RLS 算法 在 信号 处 理 和 控制 理论 的 文献 中 进行 了 彻底 研究 (Haykin，2002; Goodwin 
and Sin，1984) 。 遗 憾 的 是 ， 在 机 器 学 习 的 文献 中 ， 除 了 Rifkin(2002) 的 博士 论文 以 及 少量 其 
他 文献 之 外 基本 上 被 完全 忽视 了 。 

2 需要 利用 实践 数据 集 来 进行 更 广泛 的 实验 ， 以 便 对 于 基于 RLS 算法 “用 于 设计 其 输出 
B) 的 RBF 网 络 和 SVM 之 间 的 相互 比较 作出 更 精确 的 结论 ， 不 仅仅 从 性 能 的 角度 ， 也 从 收 合 
速率 和 计算 复杂 度 的 角度 。 
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核 回 归 

本 草 研 究 的 另 一 个 重要 的 课题 是 核 回 归 ， 这 建立 在 密度 估计 的 概念 之 上 。 特 别 地 ， 我 们 集 
中 讨论 了 被 熟知 为 Parzen-Rosenblatt 密度 估计 器 的 非 参数 估计 器 ， 其 形成 依赖 于 核 的 可 利用 
性 。 这 一 研究 让 我 们 通过 两 种 观点 来 考察 定 义 为 非 线性 回归 模型 的 逼近 本 数 : Nadaraya-Wat- 
son 回归 估计 器 和 归 一 化 RBF 网 络 。 对 于 这 两 者 ， 多 变量 高 斯 分 布 提供 了 对 于 核 的 一 种 好 的 
选择 。 
注释 和 参考 文献 


1. 径 向 基 沿 数 是 在 解决 实 多 变量 插值 问题 时 首次 提出 的 。 这 方面 的 早期 工作 在 Powell(1985) 中 有 所 论述 。 现 
在 径 向 基 渔 数 是 数值 分 析 研 究 中 的 一 个 主要 方 癌 。 
Broomhead and Lowe(1988) 首先 将 径 向 基 郴 数 应 用 于 神经 网 络 设计 。Poggio and Girosi(1990a) 在 径 问 基 
函数 网 络 的 理论 与 设计 中 也 做 出 了 重大 责 献 。 后 一 篇 论文 强调 将 正则 化 理论 应 用 于 这 类 神经 网 络 ， 以 提高 
对 新 数据 的 泛 化 能 力 ; 正则 化 理论 将 在 第 10 章 话 细 讨 论 。 
2. Cover 定理 的 证 明 遵 循 如 下 两 个 基本 考虑 (Cover, 1965); 
。 Schlafli 定理 ， 或 函数 计数 定理 : Mom 维 欧 儿 里 得 空间 上 的 N 个 处 于 一 般 位 置 的 向 量 进行 二 分 ， 可 得 
到 的 齐 次 线性 可 分 的 二 分 方式 的 数目 等 于 : 
C(N,m) = 2 >) aie 
如 果 每 一 个 含有 m 个 或 小 于 m 个 的 向 量子 集 都 是 线性 独立 的 ， 就 说 mm 维 欧 几 里 得 空间 上 的 集合 光一 
(x :处 于 一 般 位 置 。 
。 的 联合 概率 分 布 的 反射 不 变性 ; 一 个 随机 二 分 是 可 分 的 概率 《在 % 的 条 件 下 〉 等 于 % 的 一 个 特定 二 分 
(所 有 的 N 个 向 量 都 属于 一 类 ) 的 非 条 件 概率 。 
Cameron(1960) Joseph(1960) 和 Winder(1961) 以 不 同 的 形式 独立 证 明了 函数 计数 定理 ， 并 应 用 于 特定 
的 感知 器 配置 ( 即 线性 阐 值 单元 )。 在 Cover(1968) 中 这 个 定理 还 被 用 于 根据 所 有 可 调 参 数 的 总 数 估计 感 
知 器 网 络 的 能 力 ， 它 的 下 界 是 N/ (1 十 logs /N)， 其 中 N 是 输入 模式 的 数量 。 
3. 通常 聚 类 在 多 本 书 中 都 有 讨论 ， 包 括 Theodoridis and Koutroumbas(2003)、Duda 等 (2001) 和 Fukunaga 
(1990). 
KK- 均值 算法 是 从 MacQueen(1967) 之 后 采取 了 这 个 名 字 ， 他 在 统计 聚 类 过 程 中 研究 了 天- 均值 算法 ， 包 括 
算法 的 收敛 性 。 这 一 思想 在 Foregey(1962) 中 在 讨论 聚 类 时 进行 了 描述 。 
Ding and He(2004) 介绍 了 在 聚 类 的 天 -均值 算法 和 数据 削减 的 主 分 量 分 析 之 间 一 个 非常 有 趣 的 关系 。 特 别 
证 明了 主 分 量 表达 了 K- 均 值 聚 类 中 聚 类 成 员 指标 的 连续 的 〈 随 意 的 ) 解 。 在 某 种 方式 下 ， 这 两 种 观点 是 一 
致 的 ， 即 数据 的 聚 类 也 是 某 种 形式 的 数据 削减 ， 当 然 这 两 者 都 是 在 非 监督 方式 下 完成 的 。 主 分 量 分 析 将 在 
第 8 章 介绍 。 
在 通信 文献 中 处 理 矢 量 量化 时 ， 称 KK- 均 值 算法 为 广义 Lloyd 算法 , 这 是 Bell 试验 室 1957 年 一 篇 未 发 表 的 
报告 中 出 现 的 Lloyd 原始 算法 的 广义 化 版 本 。 后 来 ,在 1982 年 ，Lloyd 的 报告 被 正式 出 版 。 
4. Fisher 线性 判别 ” 式 (5.26) 定 义 的 代价 函数 不 是 别 的 正 是 称 为 类 内 协 方 差 (分散 ) HHH (Theodoridis 
and Koutroumbas, 2003), 
要 理解 这 句 话 的 意思 ， 考 虑 由 如 下 的 内 积 定义 的 变量 y: 
y= wx (A) 
向 量 x 是 从 两 个 族群 名 ME 中 的 其 一 取出 的 ， 这 两 个 族群 通过 均值 jy 和 p 将 彼此 区 别 开 来 ，w 是 可 调整 
参数 。 这 两 类 之 间 Fisher 判别 准则 由 下 式 定 义 : 





WiC,w 
J(w) = WC Ww (B) 
其 中 C, 是 类 间 协 方差 矩阵 ， 和 定义 为 
C, = (m: — ph) Cpe, — 7 (C) 


C, EAKAD, ESO 
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CG = X Gy pi), — pm)? + DG, — a) Cx — pe)? (D) 


ne Ë, nE to 
类 内 协 方差 矩阵 C, EE EE FURE EAT EE. ERT RE HEN H An R UREE RD E 
大 它 通常 是 非 奇 异 的 。 类 间 协 方差 矩阵 Cs 也 是 对 称 非 负 定 的 但 奇异 。 一 个 特别 感 兴趣 的 性 质 是 矩阵 乘积 
Cw 总 是 差分 均值 器 量 we 的 方向 。 这 一 性 质 直 接 由 Cs 的 定义 得 到 。 
定义 J(w) 的 表达 式 被 熟知 为 广义 Rayleigh 商 。 最 大 化 JOA w 必须 满足 i 条 件 
Cw = AC,w CE) 

Epi BREAST. WH (2) £-t SEERA. ARI, ERNEST. PeRA Cw 总 是 差 
分 均值 向 量 一 kz 的 方向 ， 我 们 发 现 式 〈E) 的 解 为 

w= Cr (ph, — pm) (F) 





这 称 为 Fisher 线性 判别 (Duda 等 ，2001) 。 
考虑 到 式 〈D) 中 类 内 协 方差 矩阵 CC, 的 迹 ， 我 们 确实 发 现 式 (5. 26) 的 代价 函数 是 这 一 协 方差 抵 阵 的 迹 ， 正 
如 我 们 已 经 说 明 的 那样 。 

5. 从 哲学 的 角度 讲 ，KK- 均 值 算法 的 两 步 最 优化 过 程 相似 于 EM 算法 的 两 步 最 优化 ， 这 里 第 一 步 是 期 望 鸭 茶 一 
种 ， 记 为 “E”， 第 二 步 是 最 大 化 的 某 一 种 ， 记 为 “M”。EM 算法 是 从 最 大 似 然 计算 的 基础 上 发 展 起 来 的 ; 
将 在 第 11 章 中 讲述 。 

6. 在 文献 中 ， 缩 写字 母 “RLS” 被 用 于 简称 第 2 章 中 讨论 过 的 正则 最 小 二 乘法 和 本 章 中 讨论 过 的 递归 最 小 二 
乘法 。 在 相关 讨论 中 ， 我 们 通常 能 够 分 辨 这 个 缩写 字 指 的 两 个 算法 中 的 娜 一 个 。 

7. 对 于 在 5.6 节 中 总 结 的 RLS 算 法 的 基本 内 容 的 经 典 内 容 ， 在 Diniz(2002) 和 Haykin(2002) 的 书 中 有 讲述 。 

8. RBF 网 络 的 混合 学 习 过 程 已 经 在 多 个 不 同 的 文献 中 讲述 过 ， 对 于 这 两 个 阶段 利用 不 同 的 算法 ;参看 Moody 
and Darken(1989) 和 Lippman(1989b). 

9. RG. 52) 的 条 件 均值 估计 器 也 是 最 小 均 方 估计 器 ;这 一 说 法 的 证 明 在 第 14 章 的 注释 7 中 在 贝 叶 斯 估计 理论 
下 给 出 。 

10. 关于 Parzen-Rosenblatt 密度 估计 器 的 渐 近 无 信人 性 的 证 明 ， 参 看 Parzen(1962) 和 Cacoullos(1966), 

11. Nadaraya-Watson 回归 估计 器 在 统计 学 文献 中 已 是 一 个 广泛 研究 的 主题 。 MEHR Kit, ESA A 
估计 在 统计 学 中 占有 中 心地 位 ; BA Hardle(1990) 和 Roussas(1991) 的 论文 集 。 


习题 


Cover 定理 

5.1 如 5.2 节 所 建议 的 ， 学 习 式 (5.5) 的 最 好 方式 是 通过 设 N=am 来 妇 一 化 。 利 用 这 一 归 一 化 ， 对 六 = 上， 
5，15 和 25， 绘 出 Pam, m) Ta 的 图 形 ， 从 而 验证 这 一 节 中 讲述 的 式 (5. 5 的 两 个 特性 。 

5.2 确认 在 5.2 节 开始 时 指出 的 Cover 定理 的 优 缺 点 。 

5.3 在 图 5.1b 中 给 出 的 例子 画 出 了 一 个 球形 可 分 的 二 分 。 假 设 分 离 曲 面 之 外 的 四 个 点 位 于 一 个 圆 上 ， 而 在 
分 离 曲 面 内 部 仅 有 的 一 个 数据 点 位 于 分 离 曲 面 的 中 心 。 调 查 这 些 数据 点 样本 是 如 何 非 线性 变化 的 ， 使 用 


(a) 多 二 次 函数 
gn) = (ese 1) 
(b pia — hk aR 
plr) = ee 
(zx +1) 
K-34 46 RR 


5.4 考虑 下 面 对 于 定义 在 式 (5. 26) 的 代价 函数 的 修正 : 


J aj) = 2 Dy Bi | X; — ph; I? 
FEIX— ARH RAF wi 定义 如 下 : 
a 如 时 数据 x OT RR J 





0 FW 
>， Wij Xi 
证 明代 价 函 数 的 最 小 解 是 : i = =, j=1,2,.…,K 
5 
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如 何 解释 这 个 公式 中 分 子 和 分 母 的 表达 式 呢 ? 对 比 两 个 答案 的 结论 和 我 们 在 聚 类 的 部 分 已 经 学 习 过 的 

结论 。 
递归 最 小 二 乘 算 法 
5.5 在 这 一 习题 中 ， 我们 采用 和 矩阵 P 的 统计 解释 ，P 定义 为 相关 矩阵 RHE, 

(a) 利用 线性 回归 模型 

di = W" +e; i= 1，2… 
证 明 w 的 最 小 二 乘 最 优 估 计 可 表示 为 
W=wt (0'®@) e 


其 中 
$ 
p= 本 
中 
和 
| 一 B s€29°"" sen |? 


假设 误差 ¢ 是 方差 为 o 的 白 品 过 程 的 样本 。 

(b) 从 而 ， 证 明 协 方差 矩阵 
El (w— iw #7] = R” = oP 
其 中 
5.6 从 如 下 的 正则 代价 函数 开始 : 
re => (Cd) — wT bay +A | w 
进行 如 下 工作 : 
(a) iE TE MUHA | will? 的 附加 无 论 如 何 对 于 RLS 算 法 的 构成 没有 影响 ， 如 5. 6 节 所 总 结 的 那样 。 
(b) 引入 正则 项 的 仅 有 的 效果 是 将 输入 数据 的 相关 惩 阵 表达 式 修改 为 如 下 形式 ， 
R(n) = > bi) b' (i) 十 AI 


Foch 1 AAEM. TEX KE RC(n) 的 新 的 表达 式 ， 并 证 明 通 过 引入 正则 化 所 获得 的 实际 
效益 。 
57 自 适应 滤波 的 最 小 均 方 (LMS) 算法 已 经 在 第 3 章 讨 论 了 。 比 较 递 归 最 小 二 乘 《RLS) 算法 和 LMSA 
法 的 优 缺 点 。 
RBF 网 络 的 监督 训练 
5.8 基于 高 斯 的 RBF 网 络 的 输入 -输出 关系 定义 如 下 : 


; i : i 
yi) = > ws (mexp(— a3 G5 I xi) — p; (n) | ‘ — 1,2, 


其 中 m (DER j 个 高 斯 单元 的 中 心 点 ， 宽 oCm) 对 所 有 的 KAATER w EARR ;个 输 
出 单元 的 线性 权 值 ， 所 有 这 些 参 数 都 在 时 间 ”处 测量 。 用 于 训练 网 络 的 代价 函数 定义 为 ， 


1 x . 
é = 3 ue Ci) 
其 中 
eli) = di) — y@) 
RAY BREE BIB PRAM he, (OP oe eo AES. 


(a) 计算 代价 函数 对 每 一 个 网 络 参数 we, (Cn). p (n) 和 oln) 对 所 有 i YAS BL 
(bO 利用 (a) 所 获得 的 梯度 来 对 所 有 的 网 络 参 数 表 达 更 新 公式 ， 对 网 络 的 可 调整 参数 相应 地 假设 为 he» 


hm 
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Cc) 梯度 向 量 3 吧 / 凡 42) 对 于 输 和 人 数据 有 一 个 类 似 于 聚 类 的 效果 ， 证 明 这 一 说 法 。 


核 估计 


5.9 


BERAIR “TERE” AUR RRA Sao BRR —Th HA RRR RE CE TT AN 
包含 在 训练 集中 ) th. S FOORICA RAE HS SY PI RR RA GS 
望 平方 误差 

ID= ED n OD — FOBT fed 
最 小 ， 其 中 fF. (O) FER A SS [A] R” PRESA ARRE EAA. WEH A h TF a h 
(Webb, 1994): 


N 
DO SOD fe(x— x) 
Fix) = 二 一 


b9 fe (x— X; ) 
Le sek ib TE ESM Nadaraya- Watson {h bT AF- 


计算 机 实验 
5.10 这 个 计算 机 实验 的 县 的 是 调查 由 KK- 均值 算法 完成 的 聚 类 过 程 。 为 了 对 该 实验 提供 深入 洞察 ， 我 们 将 聚 


类 个 数 固定 为 多 =6， 但 变化 图 1. 8 所 示 的 两 月 之 间 的 垂直 分 隔 焉 离 。 有 具体 来 说 ， 要 求 利 用 从 图 1. 8 的 

双 月 中 两 个 区 域 随 机 取得 的 1 000 个 数据 点 作为 无 标志 训练 样本 进行 如 下 工作 : 

(a) 对 于 8 个 一 致 隔 开 的 垂直 分 隔 序列 通过 实验 决定 均值 所 和 方差 色 = 1.2.7.6, A 4d 二 1 开始 每 
次 减少 1 直到 达到 最 后 的 分 隔 距 离 d= —6. 

(O 根据 (a》 所 获得 的 结果 ， 对 于 聚 类 ; 的 均值 包 是 如 何 被 减 小 的 分 隔 距 离 d 所 影响 的 作 一 个 评论 ， 
Jes Le 2 

(c) 对 j= 二 1,2,…,6 通 出 方差 和 分 隔 距 离 d 的 关系 图 。 

Cd) 将 实验 公式 (5. 49) 计 算出 的 只 A Co 中 的 图 显示 的 趋势 做 比较 。 

第 二 个 实验 的 目的 是 比较 两 个 混合 学 习 算 法 的 分 类 性 能 : 在 第 5. 8 节 调 查 过 的 “天 -均值 ，RLS” 算 法 

和 这 一 习题 中 调查 的 “天 -均值 ，LMS” 算 法 。 

如 第 5. 8 节 所 述 ， 假 设 如 下 的 规格 : 

隐藏 高 斯 单元 数 : 20 

训练 样本 数 : 1 000 个 数据 点 

测试 样本 数 : 2 000 个 数据 点 

A LMS 算法 的 学 习 率 参数 从 0.6 线性 地 退火 到 0.01。 

(a) 对 于 图 1. 8 的 两 个 月 之 间 的 垂直 分 隔 设 为 d 二 一 5 时， 用 “KK- 均 值 ，LMS” 算 法 构造 决策 边界 。 

(b) 4 d=—6 时 重复 这 一 实验 。 

Cc) 比较 用 “KK- 均 值 ，LMS” 算 法 和 5. 8 节 学 习 过 的 “K- 均 值 ，RLS” 算 法 获得 的 分 类 结果 。 

(dD 比较 一 般 性 的 “K- 均 值 ，LMS” 算 法 和 “K- 均 值 ，RLS” 算 法 之 间 的 复杂 性 。 
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Neural Networks and Learning Machines, 3E 
a =F 
文 持 四 量 机 


本 章 组 织 

本 章 学 习 支 持 向 量 机 ， 此 算法 也 许 是 所 有 使 用 核 学 习 方 法 中 最 好 的 机 器 学 习 算 法 。 首 先是 
6.1 节 的 引言 ， 接 下 来 的 内 容 组 织 如 下 : 

6.2 节 主 要 讨论 在 模式 线性 可 分 的 情况 下 如 何 构造 一 个 优化 的 超 平 面 ， 在 6.3 节 ， 考 虑 更 
加 复杂 情况 下 的 模式 分 类 ， 即 线性 不 可 分 的 情况 下 如 何 构造 一 个 优化 的 超 平面 。 

6.4 节 中 将 引入 内 积 核 的 思想 ， 由 此 建立 将 支持 向 量 机 作为 一 种 核 方 法 的 学 习 算 法 框架 ， 
同时 ， 我 们 还 引入 广泛 使 用 的 思想 一 一 核 技巧 。6.5 节 总 结 支 持 向 量 机 设计 的 主要 思想 ，6.6 
节 重 新 考虑 KOR 问题 。6.7 节 将 对 一 个 具体 的 模式 分 类 问题 进行 计算 机 实验 。 

6.8 节 中 引入 e- 不 敏感 损失 函数 ， 从 而 用 于 解决 6.9 节 出 现 的 回归 问题 。 

6.10 节 主 要 介绍 表达 定理 ， 它 使 人 洞悉 在 Mercer 核 的 环境 下 近似 函数 的 生成 。 

最 后 ，6. 11 节 对 本 章 进 行 总 结 和 讨论 。 


6.1 引言 


在 第 4 章 ， 我们 学 习 了 由 反 向 传播 算法 训练 的 多 层 感 知 器 ， 该 算法 好 的 特点 是 其 重 单 性 ， 
但 是 算法 收敛 速度 慢 且 缺少 最 优化 性 。 在 第 5 章 ， 我 们 研究 了 另 一 类 前 馈 网 络 ， 即 径 向 基 玛 数 
网 络 ， 其 主要 思想 来 自 于 插值 理论 ， 然 后 描述 了 次 最 优 的 两 阶段 设计 过 程 。 在 这 一 章 ， 我 们 将 
讨论 另 一 种 通用 的 前 馈 网 络 的 类 型 ， 称 为 支持 向 量 机 (support vector machines，SVMs) 。 

从 本 质 上 来 说 ， 支 持 向 量 机 是 具有 很 多 优秀 性 能 的 两 类 机 器 学 习 方 法 。 要 解释 它 是 如 何 工 
作 的 ， 从 模式 分 类 中 可 分 离 模式 的 情况 开始 可 能 是 最 容易 的 。 在 此 背景 下 ， 支 持 问 量 机 的 主要 
思想 可 以 总 结 如 下 : 

给 定 训练 样本 ， 支 持 向 量 机 建立 一 个 超 平面 作为 决策 曲面 ， 使 得 正 例 和 反例 之 间 的 隔离 边 
缘 被 最 大 化 。 


在 处 理 更 加 复杂 的 线性 不 可 分 的 模式 时 ， 我 们 原则 性 地 对 算法 的 基本 思想 进行 扩展 。 

在 支持 向 量 x 和 从 输入 空间 提取 的 向 量 x 之 间 的 内 积 核 这 一 概念 是 构造 支持 向 量 机 学 习 
算法 的 关键 。 最 重要 的 是 ， 支 持 向 量 是 由 算法 从 训练 数据 中 抽取 的 小 的 子 集 构成 。 事 实 上 ， 文 
持 向 量 机 被 称 为 核 方法 是 由 于 其 构造 过 程 中 这 一 关键 的 性 质 。 但 是 不 同 于 第 5 章 中 描述 的 次 优 
化 核 方法 ， 对 于 支持 向 量 机 的 设计 来 说 核 方法 本 质 上 是 最 优 的 ， 而 最 优 性 是 根植 于 凸 最 优 。 但 
是 支持 向 量 机 这 些 令 人 满意 的 特点 是 通过 增加 计算 复杂 度 得 到 的 。 

与 第 4 章 和 第 5 章 讨论 的 过 程 一 样 ， 支 持 向 量 机 可 以 用 来 解 模 式 识别 和 非 线 性 回归 问题 ， 
但 是 对 于 解 复杂 的 模式 分 类 问题 而 言 支持 向 量 机 具有 尤为 重要 的 影 吧 


6.2 线性 可 分 模式 的 最 优 超 平 面 
考虑 训练 样本 {Czx;,d;))X,， 其 中 x 是 输入 模式 的 第 ;个 样 例 ，& 是 对 应 的 期 望 啊 应 《月 


标 输出 )。 首 先 假设 由 子 集 4d; 二 十 1 代表 的 模式 〈 类 ) 和 di 二 一 1 代表 的 模式 是 “线性 可 分 


的 ”"。 用 于 分 离 的 超 平面 形式 的 决策 曲面 方程 是 : 
wx+4=0 (6.1) 


其 中 x 是 输入 向 量 ，w 是 可 调 的 权 值 向 量 , 5 是 偏 置 。 因 此 可 以 写成 : 
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wx +6b>0 U di =+ 1 
wx, +b< 0 X d; ==] 
在 这 里 做 了 模式 线性 可 分 的 假设 ， 以 便 在 相当 简单 的 环境 里 解释 支持 向 量 机 背后 的 基本 思想 ， 
在 第 6. 3 节 将 放宽 这 个 假设 。 
对 于 一 个 给 定 的 权 值 向 量 w 和 偏 置 6，， 由 式 (6.1) 定 义 的 超 平面 和 最 近 的 数据 点 之 间 的 间 
隔 被 称 为 分 离 边 缘 ， 用 表示 。 文 持 回 量 机 的 目标 是 找到 一 个 特殊 的 超 平面 ， 这 个 超 平 面 的 分 
AWK p 最 大 。 在 这 种 条 件 下 ， 决 策 曲 面 称 为 最 优 超 平面 (optimal hyperplane)。 图 6. 1 描述 
二 维 输入 空间 中 最 优 超 平面 的 几何 结构 。 
设 w。 和 6b, 分 别 表 示 权 值 向 量 和 仿 置 的 最 优 值 。 相 应 地 ， 在 输入 空间 里 表示 多 维 线性 决策 
面 的 最 优 超 平面 形式 如 下 : 


(6. 2) 


wixX+b, =0 (6. 3) 
CHRO. DAKE. Fld! paw 

g(x) = wlx +b, (6. 4) 
给 出 从 x 到 最 优 超 平面 的 距离 的 一 种 代数 度量 (Duda and Hart，1973) 。 看 出 这 一 点 的 最 简单 
方法 或 许 是 将 x 表达 为 


x= x br TET 


Hh, xy 是 x 在 最 优 超 平面 上 的 正 轴 投 影 ，~ 是 期 望 的 代数 距离 ; 如果 x 在 最 优 超 平面 的 正面 ，” 

是 正 值 ; 相反 如 果 x 在 最 优 超 平面 的 负面 ，~ 是 负 值 。 因 为 由 定义 知 g(x,) 二 0， 由 此 推出 ， 
g(x) =wix+d, =r || w, Í 

或 者 等 价 于 : 

g(x) 


"wl 

尤其 ， 从 原点 Cl x=0) IRREFERA H b/w JAE. MOO, RARER 

超 平面 的 正面 如 果 bb 二 0， 原 点 在 灸 面 ; 如 果 5b, 二 0， 最 优 超 平面 通过 原点 。 这 些 代 数 的 几何 
解释 在 图 6.2 中 给 出 。 


(6. 5) 














图 6.1 线性 可 分 模式 最 优 超 乎 面 的 思想 示意 图 : 图 6.2 二 维 情况 下 点 到 最 优 超 平 面 
灰色 阴影 表示 的 点 是 支持 向量 的 代数 距离 的 几何 解释 
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现在 的 问题 是 对 于 给 定 的 数据 集 了 = ((zx;,qd;)} ， 找 到 最 优 超 平面 的 参数 w, Mb.. WHR 
6. 2 描绘 的 结果 ， 可 以 看 出 一 对 Cw, ,5b,〉 一定 满足 条 件 : 
wx +b, 之 1 X di =+1 
w Xi Hb, S—1 %d;=-1 
注意 如 果 式 C6, 2) 成立， 即 模式 是 线性 可 分 的 ， 总 可 以 重新 调整 w。 和 5。 的 值 使 得 式 (6.6) 成 
立 ; 这 种 重新 调整 并 不 改变 式 (6. 3) 。 
满足 式 (6. 6) 第 一 行 或 第 二 行 等 号 情况 的 特殊 数据 点 xd) 称 为 支持 向 量 , “支持 向 量 机 ” 
因此 得 名 。 其 他 的 训练 样本 点 完全 不 重要 。 由 于 支持 问 量 的 特点 ， 这 些 向 量 在 这 类 机 器 学 习 的 
运行 中 起 着 主导 作用 。 用 概念 性 的 术语 来 说 ， 支 持 向 量 是 最 靠近 决策 面 的 数据 点 ， 这 样 的 数据 
点 是 最 难 分 类 的 。 因 此 ， 它 们 和 决策 面 的 最 优 位 置 直 接 相 关 。 
考虑 一 个 支持 向 量 x” 对 应 于 dO 三 十 1。 然 后 根据 定义 ， 得 出 : 


(6. 6) 





g(x’) =wix’ +b, =F1, 4d? =F1 (6. 7) 
从 式 (6.5) 知 从 支持 向 量 x 到 最 优 超 平面 的 代数 距离 是 
(x) | we ||’ ea 
r= BO) = (6. 8) 
0 a J 当 qd” | 
| we | | 


其 中 加 号 表示 x 在 最 优 超 平面 的 正面 ， 而 减 号 表示 x 在 最 优 超 平面 的 负面 。 让 o 表示 在 两 个 
类 之 间 的 分 离 边 缘 的 最 优 值 ， 其 中 这 两 个 类 构成 训练 集合 。 因 此 从 式 (6. 8) 得 到 


= 一 一 (6.9) 
P Tw. | 





xh C6. 9) 说 明 : 

最 大 化 两 个 类 之 间 的 分 离 边 缘 等 价 于 最 小 化 权 值 向 量 志 的 欧 几 里 得 范 数 。 

总 之 ， 由 式 (6. 3 定义 的 最 优 超 平面 是 唯一 的 ， 意 味 着 最 优 权 值 向 量 w 提供 正 反 例 之 间 最 
大 可 能 的 分 离 。 这 个 优化 条 件 是 通过 最 小 化 权 值 向 量 w 的 欧 几 里 得 范 数 获得 的 。 
寻找 最 优 超 平面 的 二 次 最 优化 

支持 向 量 机 灵活 地 根植 于 廿 优化 理论 :一 因此 机 器 具有 良好 的 最 优化 性 。 基 本 上 分 以 下 四 
个 步 又 来 进行 : 

1. 寻找 最 优 超 平面 的 问题 ， 以 这 样 一 个 陈述 为 开始 : 即 在 原始 权重 空间 的 带 约束 的 优化 
问题 。 

2. 对 于 上 述 约束 问题 建立 拉 格 朗 日 函数 。 

3. 推导 出 机 器 最 优化 条 件 。 

4. 问题 的 最 后 阶段 是 在 对 偶 空间 解决 带 拉 格 朗 日 乘 子 的 优化 问题 。 

要 继续 讲解 ， 我 们 首先 注意 到 训练 样本 


可 一 (Xi,di)i! 
ERAR. 6) 的 两 行 的 。 把 两 个 等 式 合并 到 一 个 等 式 是 有 益 的 : 
d:,(w'x; +6) > 1 当 i= 1,2," N (6. 10) 


手 握 这 样 的 约束 形式 ， 现 在 我 们 准备 将 约束 最 优 问题 正式 地 陈述 如 下 : 
he pee ke Crdi) N ， 找 到 权 值 向 量 w 和 偏 置 5 的 最 优 值 使 得 它们 满足 下 面 的 约束 


d,(w'x, +b) =1 %i=1,2,°,N 
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并 且 权 值 向 量 wWw 最 小 化 代价 函数 
lw) = Fw'w 

这 里 包含 比例 因子 1/2 是 为 了 讲解 方便 。 这 个 约束 优化 问题 称 为 原 问题 (primal problem), È 
的 基本 特点 如 下 : 

。 代价 函数 OCW) E wih wee. 

。 约束 条 件 关 于 w 是 线性 的 。 
相应 地 ， 可 以 使 用 拉 格 朗 日 乘 子 方法 解决 约束 最 优 问 题 (Bertsekas，1995)。 

首先 ， 建 立 拉 格 朗 日 函数 

Ihave Fw w Dald:Cw'x, +6) — 1] (6. 11) 
其 中 辅助 非 负 变量 ww 称 作 拉 格 朗 日 乘 子 。 约 束 最 优 问 题 的 解 由 拉 格 朗 日 函数 J(w,b,a) 的 鞍点 
决定 。 拉 格 朗 日 函数 的 鞍点 具有 实 根 但 是 符号 相反 ; 这 样 的 奇异 点 一 定 是 不 稳定 的 。 鞍 点 关于 
wH b 必定 最 小 化 ; 同时 关于 a 必定 最 大 化 。 J(w,6b,a) 对 w 和 565 求 微分 并 设置 为 0， 我 们 得 到 
下 面 两 个 最 优化 条 件 ; 
aJ (wb,a) — 
条 件 = 0 


oJ (w,b,a) _ 
条 件 a in 
应 用 最 优化 条 件 1 到 式 (6. 11) 的 拉 格 朗 日 函数 ， 得 到 (在 重新 安排 项 之 后 ) 


N 


w= Dad ix (6, 12) 
应 用 最 优 条 件 2 到 式 (6. 11) 的 拉 格 朗 日 函数 ， 得 到 
Dad, = 0 C6. 13) 


解 向 量 w 定义 为 N 个 训练 样本 的 展开 。 但 是 注意 ， 尽 管 拉 格 朗 日 函数 的 凸 性 的 解 是 唯一 的 ， 
但 并 不 能 认为 拉 格 朗 日 系数 w 也 是 唯一 的 。 

同样 需要 十 分 注意 的 是 ， 所 有 以 不 等 式 满足 约束 条 件 的 式 子 ， 相 应 的 乘 子 a 必须 为 0。 换 
句 话 说， 只 有 确切 满足 

ail d;(w’x,; +6) —1] =0 (6. 14) 

nae A RR ESTES. xA EE Karush-Kuhn-Tucker® 条 件 的 陈述 (Fletcher, 1987; 
Bertsekas, 1995), 

就 像 前 面 提 到 的 ， 原 问题 是 处 理 凸 代价 函数 和 线性 约 东 的 。 给 定 这 样 一 个 约束 最 优化 问 
题 ， 可 能 构造 男 一 个 问题 ， 称 为 对 偶 问 题 (dual problem) 。 第 二 个 问题 与 原 问 题 有 同样 的 最 优 
值 ， 但 是 由 拉 格 朗 日 乘 子 提供 最 优 解 。 特 别 地 ， 可 以 陈述 对 偶 定 理 如 下 (Bertsekas，1995): 


(a) 如 果 原 问题 有 最 优 解 ， 对 偶 问 题 也 有 最 优 解 ， 并 且 相 应 的 最 优 值 是 相同 的 。 
(bO 为 了 使 得 w, 为 原 问 题 的 一 个 最 优 解 和 ao 为 对 偶 问题 的 一 个 最 优 解 的 充分 必要 条 件 是 
w 对 原 问 题 是 可 行 的 ， 并 且 
P(w, ) = J Cw, TA sao ) = min] (w,0,a) 
为 了 说 明 对 偶 问 题 是 原 问 题 的 前 提 ， 首 先 逐 项 展开 式 (6. 11) 如 下 : 
JICw,b,a) = 六 ww 一 > aid W x — b) ad, + Sai (6. 15) 


i=1 
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REAG 13? 最 优 条 件 的 性 质 ， 式 (6. 15) 右 端 第 三 项 为 零 。 而 且 从 式 (6. 12) 有 


N N N 
T 
foo Siw ee 


i=] i=l j=l 


HMMH, A HIA Jw, ba) = Qa), 可 以 改写 式 (6. 15) 
Qla) = Da-i Saad id xl, (6. 16) 
其 中 a: 是 非 负 的 。 注 意 ， 从 Jw,bwa) 转向 Qa), 其 中 反映 出 将 原 问题 转化 为 对 偶 问 题 ， 
现在 可 以 陈述 对 偶 问 题 如 下 : 
给 定 训练 样本 可 = (ziydi)) 六， 寻找 最 大 化 如 下 目标 函数 的 拉 格 朗 日 乘 子 (ahh: 


N N N 
Qla) == 24% ae es D aia dx 
满足 约束 条 件 
(1) Š jad; 一 0 
(2)a; = 0 %i=1,2.°°,N Bf 


不 同 于 式 (6. 11) 中 基于 拉 格 朗 日 函数 的 原 问 题 ， 式 (6. 16) 中 定义 的 对 偶 问 题 完 全 是 根据 训练 数 
BERR. MHA. KA Q(a) 的 最 大 化 仅 依 赖 于 输入 模式 点 积 的 集合 : 
{Xi Xj Pija 
一 般 地 ， 支 持 向 量 是 训练 样本 的 子 集 ， 这 意味 着 解 是 稀疏 的 *。 也 就 是 说 对 于 所 有 的 文 持 
向 量 ， 对 偶 问 题 的 约束 (2) 以 不 等 式 的 形式 满足 ， 它 们 的 e 非 零 ; 而 对 于 训练 样本 中 的 其 他 
点 ， 约 东 条 件 以 等 式 条 件 满 足 ， 它 们 的 a 为 零 。 相 应 地 ， 确 定 用 « RON RAD ARS 
后 ， 可 以 用 式 (6. 12) 计 算 最 优 权 值 向 量 w.， 并 写成 


N 
W, = > aid &, (6.17) 
r=] 


其 中 N, 是 支持 向 量 的 个 数 《〈 即 拉 格 朗 日 乘 子 6. 非 零 的 个 数 )， 要 计算 偏 置 。， 可 以 使 用 获得 
的 w,， 并 对 一 个 正 的 支持 向 量 应 用 式 (6.7)， 这 样 有 
b, = 1 — w7 x” vd? 一 工时 


he Said x? x? (6. 18) 
回忆 所 有 的 支持 向 量 x, A FUR AS BA Ro RAS Codi) 。 从 数值 
(实际 ) 角度 来 看 ， 对 于 支持 向 量 使 用 平均 式 (6.18) 也 许 更 好 ， 即 对 所 有 非 零 的 拉 格 明日 乘 子 
PH. 

最 优 超 平 面 的 统计 特性 
在 支持 向 量 机 中 ， 通 过 约束 权 值 向 量 w 的 欧 几 里 得 范 数 对 分 离 超 平面 集合 施加 一 个 结构 。 
特别 地 ， 我 们 可 以 将 定理 表述 如 下 (Vapnik, 1995, 1998); 


令 品 表示 包括 所 有 输入 向 量 xz1 ,Xs*…*zn 的 最 小 球 的 直径 。 由 方程 定义 的 最 优 超 平 面 
wIX 十 一 0 


D? 
hx miny[ om pr (6. 19) 
p 


其 中 顶 符号 由 表示 大 于 等 于 所 包含 的 数值 的 最 小 整数 ，p 是 等 于 2/|wo| 的 分 离 边 缘 ，moe 是 输入 


有 一 个 VC HHA OER 
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空间 的 维 数 。 


正如 第 4 章 提 到 的 ，Vapnik-Chervonenkis 维 ， 简 称 VC 维 ， 提 供 了 一 种 空间 函数 复杂 度 
的 上 度量。 这 个 定理 告诉 我 们 ， 可 以 尝试 通过 正确 选择 分 离 边 缘 。， 控 制 最 优 超 平面 的 VC 维 数 
( 即 复 杂 性 )， 它 与 输入 空间 的 维 数 m 无 关 。 

假定 ， 有 一 个 通过 分 离 超 平面 描述 的 散 套 结构 如 下 : 

S, = {w x+b: | wl? <e}, k= 1,2, (6. 20) 
由 VC 维 数 h 在 式 (6.19) 定 义 的 上 界 ， 在 式 (6. 20) PRR RES UA AAH 
等 价 形式 


2 
5.—15 frig Sal, k=1,2,+ (6. 21) 


其 中 a, Fl cy 都 是 常数 。 

式 (6. 20) 说 明了 最 优 超 平面 是 使 正 反 比例 之 间 的 隔离 边缘 达到 最 大 可 能 的 平面 。 等 价 地 ， 
式 (6.21) 说 明了 通过 最 小 化 权 值 向 量 w 的 欧 几 里 得 范 数 建立 最 优 超 平面 。 一 定 意义 上 ， 上 述 方 
程 更 加 肯定 了 我 们 对 式 (6. 9) 所 做 出 的 结论 。 


6.3 不 可 分 模式 的 最 优 超 平面 


到 目前 为 止 重点 关注 线性 可 分 模式 的 情况 。 本 节 我 们 考虑 更 难 的 不 可 分 模式 的 情况 。 给 定 
这 样 一 组 训练 数据 ， 肯 定 不 能 建立 一 个 不 具有 分 类 误差 的 分 离 超 平面 。 然 而 ， 我 们 希望 找到 -- 
个 最 优 超 平面 ， 使 之 对 整个 训练 集合 平均 的 分 类 误差 的 概率 达到 最 小 。 

在 类 之 间 的 分 离 边 缘 称 为 是 软 的 ， 如 果 数 据点 (x;,q;) 不 满足 下 面 的 条 件 〈 见 式 (6. 10) ) : 

d;(w'x, +b) >+1, i= 1,2, N 

这 种 违反 条 件 以 下 面 两 种 方式 之 一 出 现 : 

。 数据 点 (xd) 落 在 分 离 区 域 之 内 ， 但 在 决策 面 正 确 的 一 侧 ， 如 图 6. 3a 所 示 。 

。 数据 点 (xd) 落 在 决策 面 错误 的 一 侧 ， 如 图 6. 3b 所 示 。 


X ? Xa 








Al6.3 软 分 离 边缘 平面 : a 数据 点 x; 〈 属 于 类 @@ ， 用 小 方块 表示 ) 落 人 了 分 离 区 域内 ， 但 是 在 决策 
平面 的 正确 一 面 ; b) 数据 点 x 属于 类 %:， 用 小 圆 图 表示 ) 落 人 决策 平面 的 错误 一 面 
注意 ， 在 情况 1 我 们 有 正确 的 分 类 ， 但 在 情况 2 分 类 是 错误 的 。 
为 了 处 理 不 可 分 离 数 据点 ， 我 们 引入 一 组 新 的 非 负 标量 变量 {&) 主 ;到 分 离 超 平面 〈 即 决 集 
mM) 的 定义 中 ， 表 示 为 ， 
d;(w'x; +6) >1-&, i= 1,2,-+,N (6. 22) 
这 里 & 称 为 松弛 变量 (slack variable)， 它 们 度量 一 个 数据 点 对 模式 可 分 的 理想 条 件 的 偏离 程 
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RE. MO<é<1 时 ， 数 据点 落 人 分 离 区 域 的 内 部 ， 但 是 在 决策 面 的 正确 一 侧 ， 如 图 6. 3a 所 示 。 
当 避 > 时 ， 数 据点 落 到 分 离 超 平面 的 错误 一 侧 ， 如 图 6. 3b 所 示 。 注 意 到 支持 向 量 是 那些 精确 
满足 式 (6. 22) 的 特殊 数据 点 ， 即 使 上 各 >0。 此 外 满足 吉 =0 的 点 也 是 支持 向 量 。 注 意 ， 如 果 一 个 
对 应 的 样本 €, > 0 被 遗弃 在 训练 集 外 ， 决 策 面 就 要 改变 。 因 此 ， 支 持 向 量 的 定义 对 线性 可 分 和 
不 可 分 的 情况 都 是 相同 的 。 
我 们 的 目标 是 找到 分 离 超 平面 使 其 在 训练 集 上 的 平均 错误 分 类 的 误差 最 小 。 我 们 可 以 通过 
最 小 化 关于 权 值 向 量 w 的 泛 函 达到 此 目的 
PH = > T(E — 1) 
12. BR EA CG. 22) 的 约束 条 件 和 对 | wel? KRE. Ki COPE — PH BRM, ELA 
0, <0 
l, &€>0 
PEKE, POX w 的 最 小 化 是 非 凸 的 最 优化 问题 ， 它 是 NP- 完 全 的 * 。 
ÄH TERREA tA, H TEAK DORH RA: 


MA. de Mi ARRA E w 的 最 小 化 公式 简化 计算 ， 得 出 
1 


Pwe) = Fw wi Coe (6. 23) 


像 前 面 一 样 ， 最 小 化 式 (6. 23) 中 第 1 项 与 最 小 化 支持 向 量 机 的 VC 维 数 有 关 。 至 于 第 2 项 
> 8 ， 它 是 测试 错误 数目 的 一 个 上 界 。 

参数 C 控制 机 器 的 复杂 性 和 不 可 分 离 点 数 之 间 的 平衡 ; 它 也 可 以 被 看 作 是 通常 被 称 为 “ 正 
则 化 ”参数 的 倒数 " 。 当 参数 C 选 得 比较 大 的 时 候 ， 暗 示 着 支持 向 量 机 的 设计 对 训练 样本 了 的 
质量 具有 高 度 的 信心 。 相 反 ， 当 参数 C 选 得 比较 小 的 时 候 ， 认 为 训练 样本 了 中 存在 噪声 ， 因 此 
将 对 其 不 太 强 调 。 

在 任何 情况 下 ， 参 数 C 由 用 户 指 定 。 也 可 通过 使 用 训练 〈 验 证 ) 集 由 实验 决定 ， 这 属于 粗 
略 的 重 采样 形式 ; 在 第 7 章 讨论 使 用 交叉 验证 来 优化 选择 正则 参数 CAP. 1/0. 

在 任何 情况 下 ， 都 对 泛 范 再 Cw,6) KF w 和 {8&) 人 1 求 最 优化 ， 要 求 满足 式 (6. 22) 描 述 的 约 
REA ESZ., KER, w 的 范 数 平方 被 认为 是 一 个 关于 不 可 分 离 点 的 联合 最 小 化 中 一 个 数 
量 项 ， 而 不 是 作为 强加 在 关于 不 可 分 离 点 数量 的 最 小 化 上 的 一 个 约束 条 件 。 

对 刚刚 陈述 的 不 可 分 模式 的 最 优化 问题 而 言 ， 线 性 可 分 模式 的 最 优化 问题 可 作为 它 的 一 种 
特殊 情况 。 具 体 地 讲 ， 在 式 (6. 22) 和 式 (6. 23) 中 对 所 有 的 i 置 &;= 二 0， 就 把 它们 化 简 为 相应 的 
线性 可 分 情形 。 

我 们 现在 对 不 可 分 离 的 情况 的 原 问 题 正 式 地 陈述 如 下 : 

给 定 训 练 祥 本 (rid), ， 时 找 权 值 向 量 w 和 偏 置 已 的 最 优 值 ， 使 得 它们 满足 约束 条 件 


IŒ) = 


dwrx +b) 1-6, Bi=1,2,5N (6. 24) 
& 20, 对 所 有 1 (6. 25) 

并 且 使 得 权 值 向 量 W 和 松弛 变量 总 RUA BK 
Dwe) = FwwtCh)e (6. 26) 


KRY, CEA PREAH ERR, 
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使 用 拉 格 朗 日 乘 子 方法 ， 以 一 种 与 6. 2 节 所 描述 的 相似 方式 来 处 理 ， 可 以 得 到 不 可 分 离 模式 的 
对 偶 问 题 的 表示 如 下 〈 参 看 习题 6. 3) : 


给 定 训练 样本 (Ca dd}. ， 寻 找 拉 格 朗 日 乘 子 {ai) 记 :来 最 大 化 目标 函数 


N N N 
Qa) = Sa Š aia did ;x x; (6. Zt) 
i=] i=] jel 
并 满足 约束 条 件 
N 
(1) aid: = 0 


(2)0 委 oa 所 CC ţ = 1,2, =, N 

其 中 ，C 是 使 用 者 选 定 的 正和 参数 。 
注意 ， 松 弛 变量 皇 及 其 拉 格 朗 日 乘 子 都 不 出 现在 对 偶 问 题 中 。 除了 少量 但 很 重要 的 差别 外 ， 
不 可 分 模式 的 对 偶 问 题 与 线性 可 分 模式 的 简单 情况 相似 。 在 这 两 种 情况 下 ， 要 最 大 化 的 目标 函 
数 Q(a) 是 相同 的 。 不 可 分 离 情 况 与 可 分 离 情 况 的 不 同 在 于 ， 限 制 条 件 a20 被 替换 为 条 件 更 强 
的 0 过 ww 委 C。 除 了 这 个 变化 ， 不 可 分 离 情 况 的 约束 最 优化 问题 和 权 值 回 量 w 和 偏 置 5 的 最 优 值 
计算 过 程 与 线性 可 分 情况 一 样 。 还 要 注意 支持 向 量 和 以 前 的 定义 相同 。 
无 界 的 支持 向 量 

对 于 一 个 规定 的 参数 C， 满 足 aC 的 点 Cd) 称 为 无 界 或 者 自由 支持 向 量 。 当 w 王 
C 时 ， 我 们 发 现 


adiFCx;) <1, ai = C 
r diy. bak, ere, Geie 
dF (x:) >1, a; = 0 
就 上 述 两 个 方面 而 言 ， 对 于 无 界 的 支持 向 量 有 
di:F (x;) = 1 


不 幸 的 是 逆 命 题 是 不 成 立 的 ， 即 对 于 特定 的 点 (x;,d;) 有 dF(x;) 二 1 成立 ， 这 个 条 件 不 能 必然 
地 说 明 相 应 的 拉 格 明日 乘 子 a; 的 情况 。 
因此 ， 通 过 支持 向 量 机 来 解决 模式 分 类 问题 的 时 候 存 在 明显 退化 的 可 能 性 《〈 即 ， 弱 化 的 最 
优化 条 件 )。 由 此 ， 我 们 说 一 个 点 (x; ,4;) 精确 满足 隔离 边缘 要 求 是 指 对 相应 的 情 子 a; 可 能 的 
值 没 有 限制 。 
Rifkin(2002) 讨论 了 就 计算 而 言 ， 无 界 支 持 向 量 的 个 数 是 对 支持 向 量 机 进行 训练 的 难度 
的 主要 原因 。 
用 于 模式 识别 的 支持 向 量 机 的 潜在 思想 
有 了 关于 对 不 可 分 离 模式 如 何 找 到 最 优 超 平面 的 知识 后 ， 我 们 现在 建立 用 于 模式 识别 任务 
的 支持 向量 机 ，。 
从 根本 上 说 ， 支 持 向 量 机 的 关键 在 于 如 图 6. 4 中 说 明和 总 结 的 两 个 数学 运算 : 
1. 输入 向 量 到 高 维特 征 空 间 的 非 线性 映射 ， 对 输入 和 输出 特征 空间 都 是 隐藏 的 。 
2. 构造 一 个 最 优 超 平面 用 于 分 离 在 第 1 步 中 发 现 的 特征 。 
两 个 操作 的 基本 理由 在 下 面 解释 。 
作为 最 后 重要 的 注释 ， 支 持 向 量 的 个 数 决定 了 图 6. 4 隐藏 空间 特征 的 个 数 。 所 以 ， 文 持 癌 
理论 提供 了 有 关 决 定 特 征 空 间 特 征 优 化 个 数 的 分 析 方 法 ， 从 而 保证 了 对 于 分 类 任务 的 最 
优 性 。 
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Bias 





输入 《〈 数 据 ) 空间 特征 《隐藏 ) 空间 输出 空间 


图 6.4 ”说明 支持 向 量 机 用 来 处 理 模式 分 类 的 两 个 映射 (1 ) 输入 空间 到 特征 空间 的 非 线性 
映射 ， (i) 特征 空间 到 输出 空间 的 线性 映射 


6.4 使 用 核 方 法 的 支持 向 量 机 


内 积 核 

令 工 表示 从 输入 空间 中 取出 的 向 量 ， 假 定 维 数 为 m。。 令 {gj (x)}% 表 示 一 系列 非 线 性 函数 
的 集合 ， 从 维 数 m 的 输入 空间 转换 成 无 限 维 输出 空间 。 给 定 这 样 的 变换 ， 我 们 可 以 定义 一 个 
与 方程 一 致 的 充当 决策 面 的 超 平面 


>) wg; (x) = 0 (6. 28) 
ivl 


HP iw 产 :表示 把 特征 空间 转换 成 输出 空间 的 无 限 大 的 权 值 集合 。 在 输出 空间 中 ， 由 决策 平 
面 决定 输入 空间 中 的 点 x 属于 两 个 可 能 类 之 一 : 正 例 或 者 反例 。 为 了 表示 方便 ， 我 们 将 式 
(6. 28) 中 的 偏 置 设 为 0。 使 用 和 矩阵 的 观点 ， 重 写 等 式 为 如 下 的 紧凑 形式 
w d(x) = 0 (6. 29) 
其 中 中 (x) 是 特征 向 量 ，w 是 相应 的 权重 向 量 。 
正如 6. 3 节 所 述 ， 我 们 试图 寻找 在 特征 空间 中 “转化 后 模式 的 线性 可 分 性 >。 带 着 这 个 目 
标 ， 可 以 将 式 (6. 17) 的 形式 用 权重 向 量 改写 成 下 列 形式 : 


w 一 De (6. 30) 
其 中 特征 向 量 表 示 为 : 
b(x,) = Lo: (x) ,ps (x) e] (6. 31) 
N, 是 文 持 回 量 的 个 数 。 所 以 ， 把 式 (6. 29) 代 人 式 (6. 30) 中 ， 将 输出 空间 中 的 决策 面 表示 为 : 
Dad: 6 (x,) Go = 0 (6. 32) 
我 们 立刻 注意 到 式 (6. 32) 中 的 标量 项 中 Cx;) 中 (x) 代 表 一 个 内 积 。 相 应 地 ， 将 这 个 内 积 写成 


标量 
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k(xX,X;) = O7(x;) 中 (x) = Dex go, i= 1,2,°",N, (6. 33) 
相应 地 ， 可 以 将 输出 空间 的 决策 超 平 而 ( 超 平面 ) 写成 


N. 
x 


X aidik (x, xi) = 0 (6. 34) 


函数 &(x,x ) 被 称 为 内 积 核 - MA ER, ERE MUN F (Shawe- Taylor and Cristianini, 2004); 
fk BH kax Aa aA, HERA DAAR AARE E E A e E a P R 
内 积 。 
根据 第 5 MSA MRE, RTA VK Axx, PAAR PAAR IY RS 
特点 1 内 积 核 是 自 变量 的 对 称 函 数 ， 表 示 为 
kCx,x;) = kRAS 对 所 有 的 X,» 
当 X 一 X 时 达到 最 大 值 。 
注意 ， 最 大 值 不 一 定 出 现 ; 例如 k(x,x;) =X Xi ， 作为 核 没 有 最 大 值 。 
特点 2 在 一 个 平面 上 的 核 函 数 RCX,X ) 的 总 和 是 一 个 常数 。 


如 果 可 以 使 核 kCx,x;) 通 过 合适 的 规划 使 得 在 特点 2 下 的 常数 变 成 单位 数 ， 它 将 会 具有 类 似 于 
一 个 随机 变量 的 概率 密度 函数 的 性 质 。 
核 技 巧 
检查 式 (6. 34)， 我们 可 以 得 出 两 点 重要 的 观察 : 
1. 就 模式 分 类 的 输出 空间 而 言 ， 具 体 指 定 核 了 数 有 (x,x;) 是 充分 的 。 换 句 话说 ， 无 需 显 式 
计算 出 权重 向 量 w。; 这 也 是 把 式 (6. 33) 的 应 用 称 为 核 技 巧 的 原因 。 
2. 即使 假设 特征 空间 是 无 限 维 的 ， 但 式 (6.34) 也 定义 了 包括 有 限 项 的 最 优 超 平 面 ， 项 的 
数目 与 分 类 器 中 训练 模式 的 个 数 相等 。 
就 观察 1 而 言 支持 向 量 机 也 被 称 为 核 机 器 。 对 于 模式 分 类 ， 机 器 是 由 一 个 NN 维 向 量 参数 化 的 ， 
其 中 第 i 个 参数 是 aidi,i 一 1,2,…,N，。 
我 们 可 以 将 核 函 数 ECx ，xi ) 看 成 一 个 NXN IERIE AD ij POC RR AERE 
K = (k(x; Xi ) N= (6. 35) 
K 是 一 个 非 负 定 撼 阵 ， 被 称 为 核 短 阵 ; 通常 也 简称 为 Gram 矩阵。 它 的 非 负 性 或 者 半 正 定性 是 
指 对 于 任何 与 抢 阵 玉 可 以 相 容 的 实 向 量 a 满足 以 下 条 件 : 
a’ Ka > 0 





Mercer 定理 
(6. 33) 对 于 对 称 核 函 数 &(x,x) 的 展开 是 在 泛 函 分 析 中 出 现 的 Mercer 定理 的 一 种 特殊 情 
形 。 这 个 定理 可 以 正式 表述 如 下 (Mercer, 1908; Courant and Hilbert, 1970): 


Rx x) 表示 一 个 连续 的 对 称 核 ， 其 中 工 定 义 在 闭 区 间 a<x<b 上 ，x 和 X 类 似 。 核 &(xX， 
Xx ) 可 以 被 展开 为 级 数 
h(x,X) = Sai: Og’) (6. 36) 
其 中 所 有 的 和 均 是 正 的 。 为 了 保证 这 个 展开 式 是 合理 的 并 且 为 绝对 一 致 收敛 的 ， 充 要 条 
件 是 
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| Gx x yo yx Ydxdx’ > 0 (6. 37) 
对 于 所 有 的 Jy C) 成 立 ， 这 样 就 有 
| ¥ dx < 00 (6. 38) 
成 立 ， 其 中 a 和 hb 是 实 整 数 。 


PR gp; (x) 称 为 展开 的 特征 函数 ，); 称 为 特征 值 。 所 有 的 特征 值 均 为 正 数 ， 这 个 事实 意味 着 核 
Rx x ) 是 正定 的 。 反 之 ， 这 个 特点 意味 着 对 于 权重 向 量 a 
这 将 在 以 后 讨论 。 

但 是 注意 ，Mercer 定理 只 是 告诉 我 们 对 于 有 的 空间 是 否 存 在 一 个 候选 的 核 是 积 核 ， 因 此 
是 否 能 被 支持 问 量 机 采用 。 但 是 它 没有 告诉 我 们 如 何 去 构 造 孙 数 oO); 需要 我 们 自己 去 构造 。 
Ait, Mercer 定理 是 重要 的 ， 原因 在 于 对 于 可 用 核 的 数量 进行 了 限制 。 注 意 到 式 (6. 33) 是 
Mercer 定理 的 特殊 形式 ， 因 为 所 有 的 特征 值 都 已 经 归 一 到 单位 范围 内 。 这 也 就 是 为 什么 内 积 
RRA Mercer 核 的 原因 。 


6.5 支持 向 量 机 的 设计 


式 (6. 33) 的 内 积 核 k(x,x;) 的 展开 式 允 许 我 们 建立 一 个 决策 面 ， 在 输入 空间 中 它 是 非 线 性 
的 ， 但 它 在 特征 空间 的 像 是 线性 的 。 有 了 这 个 展开 式 ， 我 们 现在 对 支持 向 量 机 受 约束 的 最 优化 
的 对 侦 形 式 陈述 如 下 : 


Be MN RAFAL CK, di) hioi PREGA ART la Li ARK HBR 


Qla) = Da- 4X Madd bs ,Xj ) (6. 39) 
并 满足 约束 条 件 
(1) Š ad; = 0 


(2)0 Ka; KC 4 i = 1,2, N 

其 中 ，C 是 用 户 选 定 的 正 参 数 。 
约束 条 件 〈1) 由 拉 格 朗 日 函数 QCa) 对 应 的 偏 置 b 的 最 优化 产生 ， 是 式 (6. 13) 的 重 写 。 这 里 陈 
述 的 对 偶 问 题 与 在 第 6. 3 节 中 考虑 的 不 可 分 模式 情况 的 形式 相同 ， 除 了 内 积 xix, RARE 
k(x,x;) 所 代替 。 
支持 问 量 机 的 例子 

核 &Cx,xi) 的 要 求 是 满足 Mercer 定理 。 只 要 满足 这 个 要 求 ， 怎 样 选择 它 是 有 一 定 自 由 度 
的 。 表 6. 1 总 结 了 支持 向 量 机 的 三 个 普遍 类 型 的 内 积 核 图 数 : 多 项 式 学 习 机 器 、 径 疝 基 也 数 网 
络 和 两 层 感 知 器 。 下 面 几 点 是 值得 注意 的 : 

1. 用 于 支持 向 量 机 的 多 项 式 核 和 径 向 基 郴 数 核 通常 满足 Mercer 定理 。 相 反 ， 用 于 支持 向 
量 机 的 两 层 感 知 器 的 类 型 ， 其 内 积 核 受到 某 种 限制 ， 如 表 6. 1 最 后 一 行 所 示 。 后 面 的 条 目 证 实 
如 下 的 事实 : 判定 一 个 给 定 的 核 是 否 符 合 Mercer 定理 确实 是 一 件 困难 的 事情 。 

2. Xt AA = APPL gee 人 这 些 
训练 数据 是 通过 解决 受 约束 最 优化 问题 来 获得 的 。 

3. 支持 向 量 机 的 基本 理论 避免 启发 式 的 需要 ， 它 们 常 被 用 在 传统 的 径 向 基 函 数 网 络 和 多 
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Fe RR Al ah WY BCT LT | 
4. 在 径 向 基 函 数 类 型 的 支持 向 量 机 中 ， 径 向 基 函 数 的 数量 和 它们 的 中 心 分 别 由 文 持 向 量 
的 个 数 和 支持 向 量 的 值 自动 决定 。 


表 6.1 Mercer 核 总 结 









支持 向 量 种 类 Mercer 核 k(X,x;) i = 1,2,‘ N 评论 
BARRARA exp (— z4 Iix— x M2) 和 所 有 核 一 样 ， 由 用 户 实现 指定 宽度 oz 
naa (TRE DWE Maw 
图 6. 5 显示 一 个 支持 向 量 机 的 体系 结构 ， 其 中 m 是 隐藏 层 的 大 小 《如 特征 空间 )。 
io 
~ 输出 y 


输入 向 量 x 





大 小 为 mm 的 Pi 个 内 积 核 
输入 层 的 特征 层 


图 6.5 使 用 径 向 基 函 数 网 络 的 支持 向 量 机 的 结构 


不 管 支持 向 量 机 是 如 何 实现 的 ， 基 本 上 它 与 传统 的 设计 多 层 感知 器 的 方法 不 同 。 在 传统 

的 方法 中 ， 模 型 复杂 性 由 保持 特征 〈 即 隐藏 神经 元 ) 的 数量 最 小 所 控制 。 另 一 方面 ， 文 持 向 

量 机 提供 一 个 机 器 学 习 设 计 的 解决 方案 ， 其 模型 复杂 性 的 控制 独立 于 维 数 ， 总 结 如 下 
(Vapnik, 1995, 1998): 

。 概念 问题 ”有意 使 特征 〈 隐 藏 ) 空间 的 维 数 足够 大 ， 使 得 可 以 在 这 个 空间 建立 超 平 

面 形式 的 决策 面 。 为 了 一 个 好 的 泛 化 性 能 ， 模 型 的 复杂 性 通过 对 所 建立 的 超 平 面 添 

加 一 些 特定 的 约束 条 件 来 控制 ， 这 导致 训练 数据 中 的 一 小 部 分 被 抽出 来 作为 支持 


向 量 。 
。 计算 问题 ”通过 使 用 核 技巧 可 以 避免 计算 径 向 基 函 数 网 络 输出 层 中 的 权重 向 量 和 
(ia EE 
6.6 XOR 问题 


要 说 明 支 持 向 量 机 设计 过 程 ， 我 们 再 次 讨论 在 第 4 章 和 第 5 章 讨 论 过 的 XOR( 腊 或 ) 问 
题 。 表 6. 2 给 出 了 4 个 可 能 状态 的 输入 向 量 和 期 望 的 啊 应 。 
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表 6.2 XOR 问 题 


输入 向 量 x 期 望 的 响应 d 
(be. =T) = 
(=19.-F 1) 十 1 
C4 15. = +1 
Cide SP) 一 1 


为 了 继续 讨论 ， 我 们 定义 如 下 核 CCherkassky and Mulier, 1998): 


k(xX,x) = (1 +x’ x)’ (6. 40) 
x 一 [zi »X2 \* 和 和 x; = | £a aol a 内 积 核 k(x,x;) 可 应 用 不 同 次 数 的 单项 式 表 示 如 下 : 
k(x,xX) = 1 + ate), + 2a aetna xe t irh 十 27I7H + 2a Xi (6. 41) 


输入 向 量 x 在 特征 空间 中 诱导 的 像 可 推断 为 
bx) = [1, 1} NZL T: s2 2t 2r] 


类 似 地 
(x; ) = Bees NITATE sia sD oe Tg i ee (6. 42) 
使 用 式 (6. 35) 中 的 定义 ， 得 到 Gram 和 矩阵 
9 1 1 1 
1 9 1 1 
K = 
1 1 9 1 
] 1 1 9 


因此 目标 函数 的 对 偶 形 式 为 〈 人 参见 式 (6. 39)): 


1 
Qla) =i + a 十 as + as = y ai — 2a a2 Za a3 十 Zaia, (6. 43) 


+ 9e% + 2azaz; — Zaza, + 9a3 — 2asa + Yai) 
xt Hes BAA RTE Q(a) 产 生 下 列 联 立 方程 组 : 
Sa. — az — a3 十 ak 一 1 
—a, + 9a, +a; —a = | 
— a, ta, t+ 9a; —a = 1 
ol 一 az — a; + 9a, = 1 


因此 ， 拉 格 朗 日 乘 子 的 最 优 值 为 : 


Qol 一 和 oz — @o,3 一 3,4. g 


这 个 结果 说 明 ， 本 例 中 所 有 4 个 输入 向 量 {x } 和 ;都 是 支持 向 量 。Q(a) 的 最 优 值 是 
] 
Q, Ca) — A 
相应 地 ， 可 写 出 
thw Weat 
2 4 
或 者 
1 
| w || = + 
a 


Mah (6. 30) 中 ， 可 以 找到 优化 权重 向 量 
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W, = [- p(x, ) Ae p(X; ) + p(X; ) = p(Xa) | 


1 ji l 1 0 
1 1 0 
i V2 一 V2 = y2 — 1/42 
Tg fa my a Hl dt dg 
一 V2 一 V2| |V2 V2 0 
一 V2j IW2 S 2 0 
wo 的 第 一 个 分 量 表示 储 置 & 为 0。 
最 优 超 平 面 定 义 为 
w? 中 (x) = 0 


扩展 内 积 wo? 中 (x) 产 生 





这 归结 为 


— Tiz; = 0 


关于 XOR 问题 的 多 项 式 形 式 的 支持 向 量 机 参见 图 6. 6a。 对 r Sal 和 和 Xi 二 XxX; 二 十 1， 
输 出 y=—1; 对 zl 一 一 1， j=- 二] 以 及 z =l, XxX; 二 一 1， 输出 y 一 十 1]。 因此 如 图 6. 6b 


所 示 ，XOR 问题 获得 解 。 


VX |X 


Xy 





a) 


图 6.6 a) 多 项 式 机 融 学 习 用 来 解决 XOR 问题 ，b) XOR 问题 的 四 个 点 推导 出 的 特征 空间 的 像 


6.7 计算 机 实验 : 模式 分 类 


本 节 通 过 图 1. 8 中 的 双 月 问题 来 讨论 模式 分 类 问题 。 这 次 ， 我 们 使 用 单 隐 层 的 非 线性 支持 
向 量 机 。 实 验 在 垂直 可 分 的 两 种 不 同 的 环境 下 进行 ， 分 别 为 d=—6.0 和 4 一 一 6.5。 设 两 个 实 
WER C 为 无 穷 。 训 练 样本 包括 300 个 样本 点 ， 测 试 样本 是 2 000 个 数据 。 同 样 采用 1. 5 节 中 
数据 预 处 理 的 方式 。 

实验 第 一 部 分 我 们 采用 距离 4 一 一 6. 0 的 方案 为 的 是 提供 例证 方式 ， 这 种 方式 将 提供 SVM 
和 第 5 章 中 的 用 来 训练 RBF 网 络 的 “K- 均 但 ，RLS” 算 法 的 对 比 ， 该 算法 的 训练 误差 很 小 。 
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图 6.7 展示 了 d= 一 6.0 时 文 持 向 量 机 的 计算 结果 。 图 6. 7a 显示 当 d= 一 6.0 时 的 结果 ， 显 
示 相 应 的 支持 向 量 和 决策 边界 。 从 图 6.7b 中 我 们 可 以 看 到 ， 对 于 未 见 过 的 数据 的 分 类 误差 





x 


b) 测试 结 


图 6.7 ME d=—6 时 SVM 应 用 于 图 1. 8 双 月 的 结果 


图 6. 8 显示 了 实验 的 第 二 部 分 ， 在 复杂 的 情况 下 使 用 了 SVM， 其 中 两 个 月 亮 之 间 的 垂直 
距离 为 4 二 一 6. 5。 同 样 ， 图 6. 8a 显示 了 相应 的 支持 向 量 和 决策 边界 ， 图 6. 8b 显示 了 相应 的 
测试 结果 。 这 次 ， 在 2000 个 测试 数据 中 有 11 个 分 错 ， 所 以 误 分 率 为 0. 55%。 
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如 前 所 说 ， 试 验 的 两 个 部 分 都 采用 了 C=ce， 在 这 种 环境 下 ， 和 需要 考虑 如 下 两 方面 : 


l.d=—6.0 时 ， 两 个 月 亮 是 非常 好 的 非 线 性 可 分 情形 ; 如 图 6. 7b 所 示 ， 测 试 数据 上 没有 
误差 恰好 证 明了 这 扩 。 


2.d=— 6.5 Wt, K 1.8 中 的 两 个 月 亮 轻微 地 重合 。 相 应 地 ， 不 再 是 可 分 的 ， 图 6. 8b 中 证 
明了 测试 数据 误差 很 小 。 在 实验 的 第 二 部 分 ， 没有 寻找 优化 的 C 来 使 训练 误差 变 小 ; 这 个 问题 
将 在 习题 6. 24 中 解决 。 


距离 4 二 -6.5， 半 径 =10， 宽 二 6 时 利用 SVM 的 分 类 


12 = +, 
10 i 7 4 f 
二 十 y 
+# 444.4 44 j 
8 fy 于 证 咎 + 本 FA 
T + ab eT 十 yi 
+ + <=. ae ee PA 
6 P 了 aN, x SS Sm T = i be + “x x 
a WA/ SS N A 
T J i x” ‘i N 4 yl id ip! 次 
x 
4 Pi i! x SEX g Ni $ 4 if EX, J 
= 起 十 二 My x xX 之 Wi 十 Ty + / x x 
人 | l x x WAA 十 f 0% x 
2 \ x Ai +t fx x 
PE + Wy ok xX x \\\ 十 cE 3- Uh X 
其 出 XW ify xx x 
中 e u Woy Yo xX XR 
0 了 中 x x SO 一 Ds “XK x 
由 x 4 ~ S 
‘ if xx KX N Ox xx KX x xX 
Ki Er XX xxx ý g x x 
1h x x x 
4 x x XX x x mx 
6 S x x x® 
= , x x 
-10 -5 0 5 10 15 20 
x 





b) 测试 结果 
图 6.8 JEE d=—6.5 时 SVM 应 用 于 图 1.8 双 月 的 结果 
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6.8 回归 : 和 鲁 棱 性 考虑 


KAA AAT AIL, 我们 重点 关注 利用 支持 向 量 机 求解 模式 识别 任务 。 现 在 ， 我 们 将 考 虚 利 
用 支持 向量 机 求解 非 线 性 回归 问题 。 为 了 准备 这 个 讨论 ， 我 们 首先 讨论 适合 这 类 学 习 任 务 的 最 
优化 准则 问题 ， 以 鲁 棱 性 作为 主要 目标 。 有 了 这 样 的 和 目标， 我 们 需要 -一 个 模型 ， 该 模型 对 模型 
参数 中 小 的 变化 不 敏感 ， 这 在 后 面 解决 。 
-不 敏感 损失 畏 数 

以 鲁 棒 性 作为 设计 目标 ， 对 于 任何 鲁 棱 性 的 定量 测量 必须 考虑 到 由 于 微小 噪声 模型 的 一 个 
e- 偏 差 而 可 能 产生 最 大 性 能 退化 。 根 据 这 种 观点 ， 一 种 最 优 便 棒 估 计 过 程 是 最 小 化 最 大 的 性 能 
恶化 ， 因 而 是 一 种 最 小 最 大 过 程 (Huber，1981)。 当 加 性 噪声 的 概率 密度 函数 关于 原点 对 称 
时 ， 求 解 非 线 性 回归 问题 的 最 小 最 大 过 程 利用 绝对 误差 作为 被 最 小 化 的 量 (Huber, 1964), 
tein, MABMAAU PH: | 

L(d,y) = |d—y| (6. 44) 

其 中 d 是 期 望 响 应 ，y 二 w” 中 (Xx) 是 相应 的 估计 量 输出 。 

为 了 构造 支持 向 量 机 开 近 期 望 的 响应 4， 我 们 利用 式 (6.44) 的 损失 函数 的 扩展 ， 它 由 
Vapnik(1995，1998) 最 早 提出 ， 描 述 为 
ld—y|l—e， 4ld—yl|pe 
0, 否则 
s 是 指定 的 参数 ， 损 失 函 数 Leld, y PRH e- 不 敏感 损失 函数 (einsensitive loss function), WMA 
估计 器 输出 y 和 期 望 输出 4 的 偏差 的 绝对 值 小 于 s， 则 它 等 于 零 ， 否 则 它 等 于 偏差 绝对 值 减 去 
e。 式 (6. 44) 的 损失 函数 是 e- 不 敏感 损失 函数 在 ce =O 时 的 特殊 情形 ， 图 6.9 说明 Le. Cd. WAR 
差 (4d 一 y) 的 依赖 关系 。 


啊 应 
d 


D.Casyy) (6. 45) 

















图 8.9 ”线性 回归 :; a〉 图 解 半径 为 e 的 e- 不 敏感 区 域 ， 使 适应 于 用 XX 表示 的 数据 点 ; b) 相应 的 二 
AN SUB PA BX BY E 


以 式 (6. 45) 中 的 e- 不 敏感 损失 函数 作为 鲁 棱 性 的 基础 ， 我 们 在 后 面 讨论 应 用 支持 向 量 机 理 
论 来 解决 线性 回归 问题 。 So e 


6.9 线性 回归 问题 的 最 优化 解 
考虑 线性 回归 模型 ， 标 量 4 对 向 量 x 的 依赖 可 描述 为 
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d=wx+b (6. 46) 
其 中 参数 向 量 w 和 偏 置 2 都 是 未 知 的。 问题 是 给 定 训练 样本 9 二 { (x; ,d,)} 六 ,来 估计 这 两 个 
参数 ， 其 中 数据 来 自 于 独立 同 分 布 〈iid) 。 
给 定 训练 样本 J， 考 虑 风险 函数 
Ziwi +O |y- dl. (6. 47) 
其 中 加 和 是 ¢ ARIA REM RA, CEARRA MEN w? 之 间 的 权衡 。y 是 
输入 样本 x 对 应 的 估计 输出 。 为 了 达到 要 求 我 们 做 如 下 处 理 。 
最 小 化 式 (6. 47) 中 的 风险 函数 ， 约 束 如 下 : 





d;—yiSet& (6. 48) 
yi— d; Set €, (6. 49) 
上 > 0 (6. 50) 
E> 0 (6. 51) 


其 中 ,一 1 2 和 NS& 和 和 是 两 个 非 负 松 弛 向 量 ， 用 来 描述 式 (6.45) 中 se- 敏感 损失 函数 。 


为 了 解 这 个 优化 问题 中 的 拉 格 朗 日 乘 子 和 w， 可 以 使 用 6. 2 节 中 处 理 线性 可 分 模式 的 方 
法 。 首 先 ， 建 造 一 个 拉 格 朗 日 函数 (包括 约束 条 件 )， 我 们 将 继续 相应 的 对 侦 变 量 集 。 具 体 地 ， 
首先 写 出 函数 


J Cw, Easa ,yy ) => lwil? TOJ G 6) 2 (7 十 ye) 
一 Xa; (wx +b— d; +e+&) (6. 52) 


— Shai (d; 一 wTx -b+e+&) 


如 先前 一 样 ， 其 中 a; 和 ww 是 拉 格 朗 日 乘 子 。 在 式 (6.52) 中 引入 新 的 乘 子 y; Aly’, MERIEN F 
RF a 和 假设 变量 的 形式 的 最 优 性 约束 。 最 小 化 式 (6. 52) 关 于 回归 模型 中 参数 w Al b 的 拉 格 
衣 日 函数 的 要 求 ， 正 如 对 松弛 变量 上 和 总 一 样 。 

如 先前 优化 过 程 一 样 ， 对 参数 求 导 并 且 令 其 为 0， 分 别 获得 如 下 等 式 : 


W= >) (a —a)x (6. 53) 
i=] 
>} (a — ai) = 0 (6. 54) 
一 1 
Qi 一 yi 一 5 = yyy (6.55) 
a Y= C, i1=1,2,,N (6. 56) 


对 于 计算 出 来 的 乘 子 a MaMa, H65) PHAR ASR EXT MAHSSW. AT 
找到 相应 的 偏 置 (用 6 表示 )， 我 们 采用 Karush-Kuhn-Tuner 条 件 。 从 第 6.2 节 的 讨论 中 ， 可 
以 推断 出 为 了 满足 这 些 条 件 ， 对 于 所 有 不 满足 作为 等 式 的 约束 ， 相 应 的 对 偶 变量 必须 变 为 0。 
对 于 目前 的 问题 ， 我 们 有 两 组 约束 : 

。 第 一 组 如 式 (6. 48) 和 式 (6. 49) 不 等 式 所 描述 ， 分 别 对 应 于 对 偶 变量 a Mai. 

。 第 二 组 如 式 (6. 50) 和 式 (6. 51) 不 等 式 所 描述 ， 分 别 对 应 于 对 偶 变 量 y 和 #Y， 从 式 (6. 55) 

ATK (6.56), FT LAR yi: =a C H ya: C. 

相应 地 ， 我 们 根据 对 应 的 对 偶 变量 使 用 Karush-Kuhn-Tuner 条 件 到 这 四 个 约束 条 件 ， 分 别 
得 到 
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aile +E +d;—y;) =0 (6.57) 
ale +&—d;+y;) =0 (6. 58) 
(a; —C)E = 0 (6. 59) 
(a — C)é = 0 (6. 60) 


通过 查看 上 述 条 件 ， 我 们 得 出 三 点 重要 结论 : 
1. 式 (6. 59) 和 式 (6. 60) iM HH 23 a: =0 和 ws =C 的 样本 (ridi) MF &>0 和 >0 时 ; 这 
些 松弛 变量 相对 应 的 点 在 se- 不 敏感 区 域 之 外 ， 该 区 域 中 心 就 是 回归 函数 jx) Sw x 十 5 (如 图 
6. 10a Bras). 
2. 将 式 (6.57) 乘 上 w 和 式 (6. 58) 乘 上 ww ， 然 后 相 加 相应 的 结果 ， 得 到 
aa; (2e +6 +6) 一 0 
所 以 ， 当 任意 e>0, URE>OME>OM, RIA UTE 
aia; = 0 
KPa LL A eI IAS T a Ma, AA BER AES. 
3. Mak 6. 59) Ash (6. 60) ， 我 们 分 别 观 察 到 
& 一 0， 当 0<<a <C 
f= 0, 当 0 < aZ C 
在 这 种 情况 下 ， 由 式 (6. 57) 和 式 (6. 58) 可 以 看 到 
emd: t y= 0; wO<a<C - (6. 61) 
Bd, = ye = 0; X O<a CE (6. 62) 
通过 式 (6. 61) 和 式 (6. 62)， 我 们 可 以 计算 偏 置 的 估计 5。 首 先 ， RIEK AE B R g e 
出 如 下 : 


y= x+ 
对 于 输入 向 量 co A 
y = x +ó (6. 63) 
把 式 (6. 63) 代 入 式 (6. 61) 和 式 (6. 62) 中 得 到 : 
b = d; — Ñx — e, 当 0<a<C (6. 64) 
和 | 
b=d,;-Wx+e, 4%O<ai<C (6. 65) 


所 以 ， 给 定 s Ald, 并 且 从 式 (6. 53) 中 知道 多 ， 我 们 可 以 计算 出 偏 置 的 估计 28。 

对 于 5 的 计算 ， 理论 上 可 以 使 用 任何 属于 (0，C) 之 间 的 乘 子 。 但 是 ， 在 实际 计算 中 ， 用 
所 有 属于 这 个 域 的 乘 子 计算 出 的 平均 值 更 好 。 
Se FF a ET AE 

从 式 (6. 57) 和 式 (6. 58) ， 我 们 可 以 看 到 所 有 在 e- 不 敏感 的 区 域 里 面 ， 有 

|d; — y: |e 

在 这 种 情况 下 ， 两 个 式 子 括号 中 的 因子 都 是 非 零 的 ， 因 些 ， 为 了 使 式 (6. 57) 和 和 式 (6. 58) 都 成 并 
( 即 满足 KKT 条 件 ) ， 我 们 没有 必要 使 用 所 有 的 x 来 计算 W。 换 句 话 说 ， 式 (6. 53) 的 支持 向 量 


EH de Hh 1 | 

HEM ARE a; MoAESMRAEL TRAE. MAG 53) 而 言 ， 在 e- 不 敏感 的 区 域 里 
面 的 点 对 最 后 的 解 没有 贡献 ， 这 点 在 几何 上 似乎 是 合理 的 。 这 些 特殊 的 点 不 包含 对 最 后 的 解 有 
用 的 信息 (Schölkopf and Smola, 2002), 
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6.10 ”表示 定理 和 相关 问题 


我 们 通过 建立 表示 定理 来 完成 核 机 器 (包括 支持 向 量 机 〉 的 讨论 ， 不管 这 些 核 机 器 是 线性 
的 还 是 非 线性 的 。 表 示 定 理 为 我 们 更 好 理解 这 类 重要 的 学 习 机 器 提供 了 很 多 帮助 。 为 了 证 明 这 
个 定理 ,我们 首先 来 描述 什么 是 Hilbert 空间 ， 然 后 介绍 什么 是 再 生 核 Hilbert 空间 。 
Hilbert 空间 " 
令 {xi} 丰 1 是 内 积 空 间 儿 中 的 一 组 标准 正 交 基 ， 同 样 假定 其 是 无 限 维 的 。 注 意 ， 两 个 向 量 x 
和 x, 满足 标准 下 交 性 是 指 满足 如 下 双重 条 件 : 
poe ae (6. 66) 
0, 其 他 | 
第 一 部 分 是 关于 规范 性 ， 第 二 部 分 是 关于 正 交 性 。 这 样 的 空间 称 为 pre- Hilbert $A, MRE 
间 ， 每 个 向 量 都 有 有 限 的 欧 几 里 得 范 数 〈 长 度 )， 是 pre- Hilbert 空间 的 特例 。 
令 为 最 大 且 最 广泛 的 向 量 空间 ， 并 具有 无 限 基 {xi)1。 在 空间 儿 中 的 向 量 不 一 定 具有 如 
下 形式 : 


x= Slax | (6. 67) 
BRA H irh KR, a 是 系数 。 定 义 新 的 向 量 
Yn = San (6. 68) 


可 以 以 相似 的 方式 定义 另 一 个 向 量 y。。 当 nm 时 ,我们 计算 两 者 之 间 欧 几 里 得 距离 的 平方 


[yn — Yn ||? = || >) aXe = >) aeXs |? = | >) aX |? = a (6. 69) 
k=] k=] i k=m+l 


其 中 ， 在 最 后 一 行 我 们 调用 了 式 (6. 66) 的 双重 条 件 。 
鉴于 式 (6. 69)， 可 以 推导 出 以 下 公式 ， 


l. X ai 一 0, 当 n,m —> œ 时 


k=m+l 


2 
另外 ， 对 于 给 定 的 正 数 e， 我 们 可 以 找到 一 个 足够 大 的 整数 来 满足 
> 
因为 i 
Dy a = J)at + >) ai 
因此 


Dapa us (6. 70) 
k=1 


在 赋 范 空间 中 ， 当 yn Aly, 之 间 的 距离 满足 
ly, yn ll Keo MER e > EMAR mn >M, 
Bot — Bil pe] Cy, }7- RFE — PEs 这样 的 序列 被 称 为 Cauchy 序列 。 注 意 到 所 有 的 收敛 序 
列 都 是 Cauchy 序列 ， 但 不 是 所 有 Cauchy 序列 都 收敛 。 
PUL, Ee x BTR EK KRM, SARS x 是 这 组 基 的 线性 组 合 而 且 其 长 度 的 平方 
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“是 系数 {at} 中 :的 平方 和 。 相 反 地 ， 系 数 (as) 忆 :的 平方 和 说 明了 当头 和 和 2 都 接近 无 穷 的 时 候 
| ya — yn | #40] OO, th RBA SU OURS Ly, }, Ft — Cauchy 序列 。 
. 根据 以 上 讨论 ， TRZA ARS EIFE “SER”, RINT TRE RA: 
一 个 内 积 空间 号 是 完备 的 ， 如 果 该 空间 号 中 的 所 有 Cauchy FA KAASHMHPI—-tR 
IR; 一 个 完备 的 内 积 空间 被 称 为 Hilbert 空间 。 
事实 上， 就 上 述 总 结 而 言 ， 内 积 空 间 多 通常 被 称 为 pre- Hilbert 空间 。 
W Æ$ Hilbert 空间 " 
考虑 一 个 Mercer 核 k(x,。)， 其 中 向 量 TEH, PERKS x MARRS, x 
H og REL HR &Cx,。) 所 产生 的 。 假 定 F(.，) 和 g(，) 是 由 空间 乌 中 抽取 出 的 两 个 函数 ， 分 别 表 
IRA 


fOr) = dak, +) (6. 71) 
和 
gle) = SRK, <) (6. 72) 


其 中 a, Alb, 是 对 于 Ax, CH BAAR, AFAR i AS. 
给 定 函 数 f(，) 和 g(。)， 我 们 引入 双 线 性 形式 


fg) == ` Saf (x; ,X;)b; 


i=] j=l (6. 73) 
=a" Kb 
其 中 K 是 一 个 Gram 矩阵 ， 或 者 核 矩 阵 ， 在 式 子 的 第 一 行使 用 关系 
k(xX;, *)k(x;, °) = ROX: »X;) (6. 74) 


然后 式 (6. 73) 可 以 重 写 为 简单 形式 
(fig) = dha: ok Ox.) 一 Da D bk Kx) = Dag) (6. 75) 


g(x) 





其 中 ， 第 二 行 ， 使 用 Mercer 核 的 对 称 性 。 简化 成 : 

(fg? = > or 人) (6. 76) 
式 (6.73) 的 双 线 性 的 定义 是 独立 于 函数 F(。) 和 g(。) 的 表示 。 我 们 这 样 说 是 因为 式 (6. 75) 中 
的 和 式 Dag) 不 随 下 标 数 x、 系 数 向 量 b Mn PARZ 的 改变 而 改变 。 同 样 ， 式 (6. 76) 中 
的 和 式 DoS CK) 也 具有 这 样 的 性 质 


另外 ， 从 式 (6.73) 中 ， 可 以 推导 出 下 列 三 个 性 质 : 
性 质 1 对 称 性 AT SMR PMH ARS ff g Ri Cf, g) 是 对 称 的 ， 即 


性 质 2 缩放 性 和 可 分 配 性 常数 对 Cc 与 d 与 和 空间 炙 中 任何 函数 /，g Hh 的 任意 集合 有 
‘(cfi+ds),h) = cc(f,h + dlg,h) (6. 78) 


性 质 3 EMEA ASAPH ETE BH f/， 我 们 把 式 (6.73) 改 成 f 对 自己 作用 ， 
有 如 下 的 平方 范 数 或 者 二 次 度量 : 
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| FI? =f, P = a Ka 
因为 Gram RBA RH, PURER 
| f || * 0 (6.79) 


(BMS, BRS SP ET SC Rf 和 gg， 双 线性 项 (f,g) 满足 对 称 性 与 缩 
放 性 和 可 分 配 性 ， 并 且 范 数 外 SPH (FA 满足 非 负 性 ， 我 们 可 以 正式 地 提出 式 (6.73) 中 的 
(f.g) 实际 上 是 一 个 内 积 ; 而 且 这 个 内 积 满 足 条 件 当 且 仅 当 f 一 0 时‘f,g〉 二 0 。 换 句 话说 ， 
包括 函数 f Ale 的 空间 是 一 个 内 积 空间 。 
由 式 (6. 75) 可 以 直接 得 到 附加 的 一 个 性 质 。 具 体 地 ， 令 
gl) = k(x, ») 
A 


i i 
(fik(xs 9)? = SakCxyyx) = J a;k OG, x) = f(x), k(xsxi) = klx;,x) (6. 80) 


BAR, Mercer BH R(x, ) 的 这 个 特征 被 称 为 再 生性 。 

表示 两 个 向 量 xx E 的 函数 的 核 &(x,x) 被 称 为 向 量 空间 多 的 再 生 核 ， 当 满足 以 下 两 个 
条 件 (Aronszajn, 1950) AY: 

1. 对 于 任何 CX, AKA Bz HRM xX DRS. 

2. 它 满 足 再 生性 。 

而 Mercer 核 确实 满足 以 上 两 个 条 件 ， 因 此 赋予 了 其 “再 生 核 ”的 名 称 。 如 果 在 其 中 定义 
了 再 生 核 空间 的 内 积 (HE) 空间 也 是 完备 的 ， 我 们 就 可 以 更 进一步 讨论 一 种 “再 生 核 Hil- 
bert 空间 ”。 

为 了 证 明 完 备 性 ， 考 虑 一 个 固定 输入 向 量 x 和 一 对 Cauchy PRA Ar OO br A fn CO ter e 
其 中 n>m, RAR f,《(x) 和 了 (x) 应 用 式 (6. 80) 的 再 生 核 性 质 ， 可 以 号 出 

fa OX) — fin ®) = fs) — fan CD ROK, *) 
其 中 右边 是 一 个 内 积 。 然 后 使 用 Cauchy-Schwarz 不 等 式 ”， 我 们 有 
C00 — fa XD = Sale) — fale) RCx, mae >) (6. 81) 
RCx,x) 
因此 ，f, (x) 是 有 界 的 Cauchy FA, KABSAF PMR TAM f。 最 后 ， ee 
yx) = limf, (x) 

通过 这 样 的 收敛 Cauchy 序列 来 完备 空 加 及， 就 获得 了 Hilbert 4 A]. 我 们 已 经 说 明了 每 个 
Mercer 核 ECx,。) 定 义 了 一 个 Hilbert SHH, HP f(x) 和 k(x,。… ) A AN ER BEE TAA 
f(x) 的 值 。 这 样 定义 的 Hilbert 空间 被 称 为 再 生 核 Hilbert 空间 ， 以 后 我 们 使 用 首 字母 缩写 
RKHS. © 

在 下 面 我 们 用 一 个 重要 定理 来 说 明 RKHS 强大 的 分 析 能 力 。 
表示 定理 的 规范 表述 … 

我 们 由 Mercer 核 k(x,* ) 导 出 一 个 RKHS， 记 为 多 。 给 定 任意 实 值 函数 OCH, WHE 
分 解 为 两 部 分 的 和 ， 这 两 部 分 都 自然 地 位 于 空间 %% 中 : 

。 第 一 部 分 是 核 函 数 &Cxi ，*),kCxs，*),…,k(X，*，) 的 展开 形式 ; Ff) CO RMT 

分 ， 使 用 式 (6. 71) 来 表示 该 部 分 


Filo Dj aik OX 。) 
。 第 二 部 分 是 正 交 于 核 函 数 的 ; 用 f(x) 表 示 这 个 部 分 。 
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因此 可 以 表示 函数 SOCON 
fC) = fy CI+ Ff, (= akon +f. Ce) (6. 82) 
Xf sh (6. 82) 使 用 式 (6. 78) 的 可 分 配 特征 ， 我 们 有 
f(x) 一 (CR ， 
=( ak (x, ©) k (X; DD ROG, aTe? 
由 于 六 (垂直 于 核 函 数 的 张 量 ， 所 以 第 二 项 为 0， 等 式 因此 变 为 
f(x) = (Sakon, =) k(x;5 2. = Src (6. 83) 
等 式 (6. 83) 是 表示 定理 的 数学 表达 ， 和 
任何 RKHS PLY BRKT HAF Mercer 核 函 数 的 线性 组 合 米 表示 。 
然而 ， 还 需要 介绍 更 多 内 容 ， 


表示 定理 的 证 化 能 力 
表示 定理 的 重要 特点 是 ， 式 (6. 83) 给 定 的 展开 式 使 如 下 的 正则 风险 《价值 函数 ) 最 小 


N 
EP) = sg DCAD FAD + QC FN,) (6. 84) 


其 中 (x(n) da) 是 训练 样本 ， 了 是 未 知 函数 , QC f Il) ÆEN BR (Scholkpf and Smo- 
la，2002) 。 要 使 定理 成 立 ， 正则 函数 必须 是 参数 的 单调 增 函 数 ， 这 个 条 件 简 称 为 单调 性 条 件 。 

式 (6. 84) 右 边 的 第 一 项 是 标准 误差 ， 是 f 的 二 次 函数 。 所 以 ， 通 过 使 用 固定 的 a;€ 民 ， 式 
(6. 83) 的 展开 形式 使 这 项 最 小 。 

为 了 证 明 展 开 式 也 使 风险 函数 (7) 的 正则 部 分 达到 最 小 ， 我 们 分 以 下 三 步 处 理 ， 

1. 让 F 代表 与 核 函 数 {k(x;，*))i_; 的 张 量 正 交 的 部 分 。 所 以 ， 根 据 式 (6. 82), HP wR 
可 以 用 训练 样本 上 的 核 展开 并 合并 方 来 表示 ， 有 

aC fll.) = (| Mako, Dr o) (6. 85) 


为 了 数学 上 的 方便 ， 我 们 使 用 新 的 函数 . 

acl FNS) = QC sil, (6. 86) 
而 不 是 使 用 原 正则 函数 Q( 1 fe;)。 这 是 允许 的 ， 因 为 二 次 函数 在 (0,00) 区 间 上 是 严格 单调 
的 。 所 以 ， 当 和 且 仅 当 ACI SIZ) WEARER ad Fil Æ L0 上 是 严格 单调 的 。 
对 于 所 有 的 fi ， 我 们 可 以 写成 


Gh FIZ) =A | Maken, +41 Cf) (6. 87) 
2. 对 式 (6. 87) 右 边 的 参数 A 使 用 eee 分 解 ， 可 以 写成 
tA = (| Mek of + fs 12) SAS Eaka o) 
对 优化 条 件 ， 令 f= 生成 以 下 等 式 l 
AFI = A Sak (x, oE) (6. 88) 
3. 最 后 ， 就 式 (6. 86) 所 引入 的 定义 ， 我 们 得 到 期 望 的 结果 
ACI ffl) = 0(| Dak ox. >I.) (6. 89) 


aH 
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于 是 以 下 事实 成 立 : 只 要 单调 性 条 件 满足 ， 对 于 固定 的 a; ER, FR EENAA 
OC || fll, 最小。 

在 分 解 标 准 误差 和 正则 项 时 把 它们 作为 一 个 整体 ， 它 们 两 项 之 间 会 有 个 均衡 。 在 任何 情况 
下 ， 对 于 某 些 固定 的 a;E€ RR， 式 (6.83) 所 描述 的 表示 定理 将 会 使 式 (6. 84) 的 正则 函数 达到 最 
小 ， 从 而 确定 了 表示 定理 良好 的 泛 化 能 为 (Scholkpf and Smola，2002) 。 

在 第 7 章 正 则 化 理论 中 我 们 将 使 用 这 个 重要 的 定理 。 


6. 11 小 结 和 讨论 


支持 向 量 机 是 为 了 设计 仅 有 一 个 非 线 性 单元 隐藏 层 的 前 馈 网 络 而 设计 的 简洁 而 高 度 原则 性 
强 的 学 习 方法 。 它 由 植 根 于 VC 维 理论 的 结构 风险 最 小 化 原则 导出 ， 这 一 点 使 得 它 的 推导 更 加 
深刻 ， 结 构 风 险 最 小 化 在 第 4 音 讨 论 过 。 顾 名 思 义 ， 机 器 的 设计 随 抽 了 权 训 练 数 据 的 子 集 作 为 支 
持 向 量 而 定 ， 因 而 代表 数据 的 一 个 稳定 特征 。 文 持 回 量 机 包括 多 项 式 学 习 机 郑 、 径 向 基 晒 数 网 
络 和 两 层 感 知 器 作为 其 特殊 情形 。 因 此， 虽然 这 些 方法 提供 训练 数据 的 内 在 统计 规则 的 不 同 的 
表示 ， 但 是 它们 都 源 于 文 持 向 量 机 这 一 共同 基础 。 

支持 向 量 机 的 另 一 个 突出 的 特点 就 是 批量 学 习 的 核 方 法 “。 
it 3 4 ie 

支持 向 量 机 的 行为 随 着 训练 样本 的 数目 增加 而 渐进 地 线性 增长 。 存 在 这 样 的 事实 ， 用 来 解 
决 模式 识别 和 回归 问题 的 计算 代价 都 包括 一 个 二 次 项 和 三 次 项 。 具 体 地 ， 当 C 很 小 时 ， 计 算 代 
MUN? 增加 ， 当 C 很 大 时 ， 计 算 代 价 以 N? 增长 〈Bottou and Lin, 2007), 

为 了 缓解 这 个 问题 ， 许 多 商业 优化 库 被 用 于 解决 二 次 规划 问题 。 但 是 这 些 库 的 用 处 比较 有 
限 。 解 决 二 次 规划 问题 的 内 存 需 求 也 是 随 着 样本 数目 二 次 增长 。 在 现实 生活 中 的 应 用 通 稼 包括 
上 和 于 个 点 ， 因 此 二 次 规划 问题 的 解 不 能 通过 直接 商业 优化 库 来 获得 。 即 : 通 第 ，SVM 问题 的 
解 很 稀 朴 ， 这 导致 问题 更 加 复杂 ， 因 为 机 器 输出 层 的 权重 血 量 只 包括 相对 于 训练 样本 数目 来 说 
极 少 的 非 零 元 素 。 相 应 地 ， 直 接 用 来 解 支持 向 量 机 中 二 次 规划 问题 的 党 试 对 于 大 型 问题 来 说 行 
不 通 。 为 了 克服 这 个 困难 ， 学 术 界 提出 了 好 几 种 新 方法 ， 总 结 如 下 “: 
© L Osuma 等 (1997) 发 明了 一 种 新 的 分 解 算法 通过 解决 一 系列 更 小 子 问 题 来 得 到 优化 。 
特别 地 ， 分 解 算法 利用 支持 向 量 系 数 的 特点 ， 即 在 a, 王 0 或 ww=C 定 义 的 两 个 边界 上 是 活跃 
的 。 据 称 分 解 算法 能 解决 大 约 100 000 个 数据 点 的 问题 ， 表 现 令 人 满意 。 

2. Platt(1999) 扩展 了 Osuna 的 方法 ， 引 人 了 一 个 称 为 序列 最 小 优化 的 算法 (SMO), K 
大 的 二 次 规划 问题 分 解 成 一 系列 很 小 的 二 次 规划 子 问 题 ， 从 而 不 用 二 次 规划 库 。SMO 的 计算 
时 间 主 要 由 核 计 算 决 定 ， 所 以 使 用 核 优化 能 加 快速 度 。 

3. Joachims(1999) 提出 几 种 他 自己 的 新 方法 。 具 体 地 ， 一 个 大 的 SVM 问题 分 解 成 一 系列 
小 的 问题 ， 相 比 于 Osuna 方法 原则 性 更 强 。 另 外 一 种 重要 的 新 方法 就 是 收缩 的 观感 : 如 霖 一 
个 点 在 一 段 时 间 内 不 是 无 界 的 支持 向 量 ， 之 后 它 以 极 高 概率 不 会 变 成 支持 回 量 ， 这 个 点 以 后 不 
用 考虑 ， 从 而 节省 计算 时 间 。 

4.Rifkin(2002) 发 明了 一 种 新 的 计算 过 程 称 为 SVMFu 算法 ， 可 以 认为 是 上 述 三 种 方法 的 
结合 。 具 体 地 ， 利 用 三 种 算法 的 优点 结合 其 他 的 特点 。 据 称 本 方法 可 以 通过 解 一 系列 小 的 子 问 
题 来 解决 大 规模 问题 ， 而 这 些 子 问题 足够 小 ， 它 们 相应 的 Hessian 矩阵 能 放 人 内 存 。 

5. Drineas and Mahoney(2005) 提出 一 种 算法 ， 算 法 计算 一 个 对 NXN 阶 Gram 矩阵 容易 
判断 的 低 阶 近似 。 通 过 这 种 方式 使 计算 的 速度 更 快 。 新 算法 和 Nystrom 算法 的 关系 可 以 从 积 
分 方程 理论 谈 起 。 

6. Hush 等 (2006) 年 提出 多 项 式 时 间 来 求 支持 向 量 机 问题 中 出 现 的 一 类 二 次 规划 问题 的 
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近似 解 并 能 保证 精度 。 算 法 分 两 步 : 第 一 步 先 产生 对 偶 二 次 规划 问题 的 近似 解 ; 第 二 步 将 这 
对 偶 问 题 的 解 映 射 到 原 问 题 的 解 。 
维 数 灾难 | 

在 多 层 网 络 中 ， 支 持 向 量 机 固有 的 复杂 度 作 为 一 个 逼近 函数 是 随 着 m 指数 增长 的 ， 其 中 
m eR AS EER. Ob, BAERS s MER, HEF s EPR, CRIT RRMA 
By A at. MT. Jr AA E as eed I ER RE a. REA Se I BL 
A A Ee HE — RE. H R YY ej 
结论 

支持 向 量 机 是 最 为 广泛 使 用 的 核 学习 算 法 。 事 实 上 ， 我 们 可 以 说 在 机 器 学 习 领 域 ， 支 持 疝 
量 机 由 于 其 优良 的 泛 化 能 力 ， 易 于 使 用 和 严密 的 理论 基础 等 优点 代表 了 最 新 的 算法 。 还 有 ， 在 
实际 应 用 的 环境 下 ， 存 在 对 解决 模式 分 类 问题 和 回归 问题 的 人 鲁 棱 性 。 

然而 ， 支 持 向 量 机 的 主要 缺陷 是 ， 随 着 训练 样本 的 数目 增加 ， 计 算 和 酝 储 要 求 也 快速 增 

。 这 些 严 重 的 要 求 使 得 处 理 大 规模 问题 时 超越 了 支持 向 量 机 的 能 力 。 实 际 的 主要 缺陷 是 二 次 
por iron 是 SVM 优化 理论 中 的 一 部 分 。 为 了 缓解 问题 的 难度 ， 许 多 方法 的 提出 加 快 了 
SVM 解 的 速度 ， 例 如 许多 上 述 提 到 的 并 行 实 现 的 技术 和 分 解 计算 算法 《Durdanovic et al. ， 
2007; Yom-Tov, 2007), 


注释 和 参考 文献 


1, Vapnik 首先 提出 支持 向 量 机 ; Boser, Guyon and Vapnik 于 1992 年 给 出 它 的 第 一 个 描述 。 而 关于 它 的 最 综 
合 旦 详细 的 描述 是 出 现 于 Vapnik 在 1998 创作 的 题 为 “Statistical Learning Theory” 一 书 中 ， 该 书 已 经 成 为 
该 领域 的 一 个 经 典 。 

Cucker and Smale(2001) 的 标题 为 “On the Mathematical Foundations of Learning” 的 文章 中 为 监督 学 习 理 
论 提 供 了 严格 的 数学 处 理 技 术 ， 重 点 放 在 近似 学 习 和 归纳 推理 的 重要 性 上 。 

Sage and Smola(2002), Herbrich(2002), and Shawe-Taylor and Cristianini( 2004) 的 书 中 都 有 对 核 机 

器 包括 支持 向 量 的 综合 论述 。 

2. 西 优化 是 一 种 特殊 的 优化 技术 ， 包 括 最 小 二 乘法 问题 和 线性 规划 问题 ， 理 论 基 础 已 经 完善 。 而 且 可 以 转化 
到 凸 优化 的 问题 已 经 不 止 是 最 小 二 乘法 问题 和 线性 规划 问题 。 将 问题 转化 到 西 优化 问题 可 以 获得 如 下 优 感 : 
。 解 是 可 靠 且 有 效 的 。 

。 理论 优点 ， 以 形成 对 偶 问 题 为 例 ， 相 比 于 原 问 题 转化 的 解 ， 计 算 上 更 加 有 效 且 概念 上 更 清晰 。 
有 关山 分 析 和 优化 的 详细 的 论述 ， 可 以 查看 Byod and Vandenbergh(2004)and Bertsekas et al. (2003) 的 书 。 
3. 对 偶 性 适用 可 导 目 标 函 数 且 带 约束 的 任何 优化 问题 ， 原 问题 和 对 偶 问题 都 要 满足 Karush-Kuhn- Tucker 
(KKT) 条 件 ， 这 个 条 件 以 Karush(1939) 和 Kuhn 与 Tucker(1951〉 的 名 字 命 名 的 。Kuhn(1976) 的 文章 给 
出 解决 不 等 式 约束 问题 的 历史 性 的 报告 ， 其 中 凸 优化 起 到 主要 作用 。 
4, Girosi(1998)and Vapnik(1998) 首先 讨论 了 稀世 近 似 和 支持 向 量 展开 的 关系 。 
Steinwart(2003) 对 于 在 通过 支持 向 量 机 解决 模式 识别 问题 中 出 现 的 稀 玖 性 给 出 了 详细 的 讨论 ; 特别 地 ， 这 
简 文 章 给 出 了 支持 向 量 个 数 的 下 限 。 沿 着 这 条 思路 许多 对 于 理解 支持 向 量 极 重要 的 结果 得 到 证 明 。 这 篇 文 
a -AS F VF BI HLR PRA RA : 
. Be Ee PRB Lld, y) =max(0.1—dy); 

. ye Be ER k eR Lid, y) =[max(0.1—dy) |’; 
i. 最 小 二 乘 损失 函数 L(d,y) 一 (1 一 dy) 。 
相应 的 SVM SARRA Lis L: 和 LS。 变 量 d 和 y 分 别 表示 相应 的 期 望 输出 和 给 定 输 入 相应 计算 出 的 
He] AY 。 
通过 使 用 最 小 二 乘 误 善 的 支持 向 量 机 在 Suykens 的 书 “Least-Squares Support Vector Machines” 中 有 详尽 
的 阐述 。 

. 为 了 研究 计算 复杂 度 ， 我们 鉴别 两 种 类 别 的 算法 : 








CT 
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。 多 项 式 时 间 算 法 ， 需 要 问题 规模 的 多 项 式 时 间 来 计算 。 例 如 ， 快 速 Fourier 变换 (FFT)， 用 来 做 谱 分 
析 ， 就 是 一 个 多 项 式 时间 算 法 ， 运 算 时 间 是 nlogn， 其 中 是 问题 规模 。 

。 指数 时 间 算 法 ， 需 要 问题 规模 的 指数 时 间 来 计算 。 例 如 ， 一 个 指数 算法 需要 2 的 时 间 来 计算 ， 其 中 > 
是 问题 规模 。 

基本 上 ， 我 们 认为 多 项 式 时 间 算 法 和 指数 时 间 算 法 都 是 有 效 的 算法 。 

在 实际 生活 中 很 多 问题 设 有 有 效 的 算法 。 基 中 的 许多 问题 ， 但 不 是 所 有 ， 似 乎 是 不 可 解 的 ,通常 被 归 为 一 

类 称 为 NP- 完 全 (NP-complete) 问题 。 术 语 NP 是 “nondeterministic polynomial” 的 缩写 。 

对 于 NP- 完 全 的 讨论 ， 请 参考 Cook(1971), Garey and Johnson(1979) 和 Cormen et al. (1990), 


. 在 最 小 二 乘法 问题 中 ，C 的 倒数 起 到 了 正则 参数 的 作用 。 我 们 在 描述 支持 向 量 机 中 使 用 C 基本 上 是 为 了 和 


这 种 核 机 器 学 习 早 期 的 发 展 一 致 。 


. Aizerman 等 〈1964a，1964b) 在 设计 该 方法 的 潜在 功能 时 首先 提出 关于 内 积 核 的 思想 ， 代 表 了 径 门 基 关 数 


的 先驱 。 同 时 ，Vapnik and Chervonenkis(1964) 发 展 了 最 优 超 平面 的 思想 。 将 两 种 强大 的 思想 结合 起 来 形 
成 支持 向 量 机 首先 出 现 于 Boser 等 (1992). 


. 除 6.4 节 讨论 的 性 质 1 和 人 性质 2 之 外 有 关 核 性 质 的 讨论 ， 可 以 参见 Schdlkopf and Smola(2002) Herbirch 


(2002) 和 和 Cristianini( 2004). 


. 要 描述 最 小 最 大 化 定理 ， 7G FE pe Br f(r) 其 中 TEX, zE, 定理 要 求 


min sup f(z,2z) 
216 
strE & 
或 者 相应 地 
max inf f(z,2z) 
rE% 
s.tez ¥ 
例如 在 最 糟糕 的 设计 情况 下 ， 应 用 最 小 最 大 化 定理 具有 很 重要 的 工程 应 用 。 有 关 该 定理 的 讨论 ， 参 见 Bert- 
sekas 等 (2003), 
Huber 最 小 最 大 化 定理 是 基于 邻 域 的 ， 而 不 是 全 局 的 ， 由 于 它们 排除 非 对 称 分 布 。 然 而 这 个 定理 成 功 地 处 
理 了 传统 统计 中 的 许多 问题 ， 特 别 是 回归 问题 ，。 
有 关 Hilbert 空间 的 讨论 参见 Dorny(1975) 和 Debnath and Mikusinski(1990) . 
再 生 核 Hilbert 空间 (RKHS) 首先 出 现在 Aronszajn(1950) 中 ， 该 文章 是 一 个 经 典 。 同 样 可 以 参见 
Shawe- Taylor and Cristianini(2004) 、Sch6lkopf and Smola(2002) 和 Herbirch( 2002) 。 
xA y 是 内 积 空间 刍 中 任意 两 个 ， 根 据 Cauchy-Schwarz 不 等 式 ， 我 们 有 
(xy < I xll?- yl? 
证 明 是 简单 的 。 不 等 式 说 明了 内 积 的 平方 不 大 于 两 个 向 量 长 度 平 方 的 乘积 。 而 式 (6. 81) 中 的 不 等 式 是 为 了 
更 方便 在 再 生 核 Hilbert 空间 考虑 问题 . 
就 历史 背景 而 言 ，Kimeldorf and Wahba(1971) 为 了 解决 基于 最 小 二 乘 函 数 的 实际 统计 估计 问题 而 描述 了 
著名 的 表示 定理 ， 间 样 也 可 以 参考 Wahba(1990)。 而 该 定理 关于 正则 风险 函数 的 泛 化 能 力 首 先是 由 


Schélkopf and Smola(2002) 解决 的 。 


14. 相对 于 支持 向 量 机 这 种 批量 学 习 ， 核 LMS 算法 (Liu 等 ，2008) 则 是 一 种 在 线 学 习 算 法 。 这 种 新 的 算法 


思想 的 来 源 包 括 第 3 章 讨论 的 最 小 二 乘 算法 和 本 章 讨论 的 再 生 Hilbert 空间 ， 并 把 这 些 思想 复合 地 集成 到 
一 起 。 特 别 地 ， 核 技巧 被 用 于 允许 基于 迭代 的 学 习 。 


15. 关于 二 次 规划 优化 的 综述 参见 Bottou and Lin(2007)。 


习题 
最 优 分 离 超 平面 
6.1 考虑 用 于 线性 可 分 模式 的 超 平 面 ， 它 由 如 下 方程 定义 
wxtb=0 
其 中 w 表示 权 值 回 量 ， b HA?» x 为 输 和 人 问 量 。 如 果 输 入 模式 集 (x, } 六 满足 附加 的 条 件 
_min wx +b] = | 
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则 称 超 平面 对 应 于 标准 对 (w,6)。 证 明 标 准 对 的 这 个 要 求 导致 两 类 分 离 边界 之 间 的 距离 为 2/ | wi， 

6.2 在 不 可 分 类 模式 的 背景 下 判断 下 列 陈述 : 错 分 类 意味 着 模式 的 不 可 分 性 ， 但 相反 则 未 必 真 。 

6.3 以 不 可 分 模式 的 分 离 超 平 面 的 最 优化 作为 原 问 题 的 开始 ， 构 造 如 6. 3 节 描 述 的 对 偶 问 题 的 公式 。 

6.4 在 本 题 中 ， 利 用 在 第 4 章 讨论 的 “ 留 一 法 ”估计 不 可 分 模式 的 最 优 超 平面 产生 的 期 望 测试 误差。 通过 删 
除 训 练 样本 中 任意 一 个 模式 并 且 根 据 剩 下 的 模式 构造 一 个 解 ， 讨 论 使 用 这 种 方法 可 以 引发 的 各 种 可 
能 性 。 

6.5 数据 空间 中 最 优 超 平面 的 位 置 由 被 选 为 支持 向 量 的 数据 点 决定 。 如 果 数 据 有 噪声， 人 们 的 第 一 反应 也 许 
是 质疑 分 离 边 界 对 噪声 的 鲁 棱 性 。 但 对 最 优 超 平面 的 详细 研究 揭示 分 离 边界 对 噪声 实际 上 是 鲁 棱 的 。 讨 
论 这 种 鲁 棒 性 的 根据 。 

6.6 ANAK kr, x) 是 在 大 小 为 N 的 训练 样本 集 上 计算 的 ， 它 产生 NXN 和 矩阵 

K = {ke hija 
其 中 心 二 tx )。 由 于 它 的 所 有 元 素 的 值 为 正 ， 因 此 矩阵 K 是 正 的 。 利 用 相似 变换 
K = QAQ’ 
其 中 A 为 特征 对 角 和 矩阵 ， 而 Q 为 相应 特征 向 量 构 成 的 矩阵 ， 通 过 K 的 特征 值 和 特征 向 量 构造 内 积 核 
ROX; ,Xi) 的 表达 式 。 你 可 以 从 这 个 表达 式 得 出 什么 结论 ? 
6.7 (a) 证 明 表 6.1 中 的 三 种 Mercer 核 满 足 西 不 变性 ， 即 
k(x,xX;) = k(Qx.Qx; ) 











其 中 IAHR, EXX 
Q! = Q" 
Cb) 一 般 说 来 ， 这 个 性 质 是 不 是 都 成 立 ? 
6.8 (a) 说 明 Mercer 核 的 正定 性 。 
(b) 考虑 Mercer 核 k(x; ,x )。 这 样 的 核 满足 Cauchy-Schwarz AEX, 
ROX; sX ROX; Xi) < ROK, » x, ROX; sX; ) 
通过 考虑 2x2 的 Gram HK K REA PRUE Mercer 核 的 这 个 特点 。 
6.9 考虑 向 斯 核 
R(X +x) 一 exp(— L2# =e), Po N 
其 中 x; 和 X; 没有 相同 的 。 说 明 Gram 4E RE : 
ROK, +X) ROX, +X.) ts ROXN +X) 
ROX. 5K) ROK Ky) ot RA KNX) 
K = i l . 
(XN XI) RCXN Xp) °° ROXN XN) 
具有 满 秩 - 从 代数 的 角度 讲 ， 害 阵 K 的 任何 两 列 都 是 线性 独立 的 。 
6.10 ”Mahalanbis 核定 义 为 
k(x,X;) = exp(— (x— x) TY (Cx—x)) 
其 中 ce 是 M 维 输 入 向 量 , i = 1,2, No MXM iE 
p> = diag(o? +03 .°** sam) 
其 中 o oz，…ow WEER. XAR EK aT RMB OSH ee. HASAN DBT at 
平滑 参数 ( 即 特殊 的 o). 
为 了 说 明 这 个 性 质 ， 考 虑 函数 _ 
F(x) = Dy aiexp (一 dx—x IP = FA | 
可 以 视 之 为 一 个 密度 估计 (Herbrich，2002)。 对 于 所 有 i 给 定 a; 一 1 M oS, M=2, N=20, Mih K 
BX F(x) Xf {Ei AB bs xı 和 xz 的 图 形 。 
Ci) ¢=0.5 
(ii) o=0.7 
(ii) 51.0 
(iv) o=2.0 
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并 评述 你 的 结果 。 

6.11 FOX HOA BUS TAL HRA RER px ox, (zi ,zz) 被 称 为 已 矩 阵 ， 只 要 满足 非 负 性 〈 即 半 正 定性 )(Shawe- 
Taylor and Cristianini, 2004), ug 
考虑 两 个 随机 变量 的 集合 X 一 (Xi )}， 证 明 下 面 陈述 的 正确 性 : 所 有 P- 和 矩阵 都 是 联合 分 布 ， 但 不 是 
所 有 联合 分 布 都 是 P-E. 

模式 分 类 

6.12 边界 在 支持 向量 机 的 设计 中 起 了 很 重要 的 作用 。 鉴 别 其 在 解 模式 分 类 问题 中 的 重要 作用 。 

6.13 使 用 式 (6. 17)， 说 明 线 性 可 分 的 模式 中 的 边界 可 以 用 拉 格 朗 日 乘 子 表示 

] | 


6 ~~ “Ng 


(Da) 


i=] 





其 中 N, 是 支持 向 量 个 数 。 | 
6.14 考虑 带 正 反例 的 线性 可 分 的 训练 样本 (Cx, odd} WE FH: 


支持 向 量 包 括 用 来 分 别 正 反例 的 所 有 信息 。 


6.15 图 P6.15 说 明了 包括 正 反 例 的 非 线 性 可 分 的 数据 集合 。 具 体 地 讲 ， 正 反例 之 间 的 决策 边界 是 椭圆 形 
找到 一 种 映射 使 得 样本 在 特征 空间 中 线性 可 分 。 | 





图 P6.15 


6. 16 用 于 求解 XOR 问题 的 多 项 式 学 习 机 使 用 的 内 积 核定 义 为 
k(x,x;) = (1+ x x)’ 
求解 XOR 问题 的 指数 p 的 最 小 值 是 多 少 ? 假定 p 为 正 整 数 。 使 用 比 最 小 值 大 的 p 值 会 出 现 什么 结果 ? 
A ee 描述 为 
XOR( a) ,ra zs) = z, 由 ® x; 
其 中 符号 四 表示 异 或 布尔 函数 运算 符 。 设 计 一 个 多 项 式 学 习 机 ， 分 离 由 这 个 运算 符 输 出 所 表示 的 两 
类 点 。 
稀 BF, PE 
6.18 证 明 下 面 的 说 法 : 
支持 向 量 机 的 解 是 稀疏 的 ， 但 与 之 相关 的 Gram 给 阵 很 少 是 黎 玖 的 
6.19 支持 向 量 机 解 的 二 次 规划 例 程 提供 了 把 训练 数据 分 成 三 类 的 基础 。 定义 这 三 个 类 ， 并 且 用 一 个 二 维 的 
图 来 说 明 是 如 何 完 成 这 种 分 解 的 。 
度量 
6.20 许多 不 同 的 方法 可 用 来 快速 获得 支持 向 量 机 的 解 ， 所 以 对 于 不 同 的 算法 性 能 之 间 的 比较 很 重要 。 建 立 
一 套 度 量 体 系 用 来 处 理 这 样 的 实际 问题 。 
再 生 核 空间 
6.21 令 kCx，*) 和 (x;，*) 记 为 一 对 核 ， 其 中 i,j 王 1,2,…,N ， 向 量 x; 和 x 有 相同 的 维 数 ,证明 ， 
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到 (Xi ， © R(X; » j= ROX; X; ) 


其 中 等 式 左 边 是 内 积 核 。 
6.22 式 (6.77)、 式 (6.78) 和 式 (6.79) 描 述 了 式 (6.75) 内 积 (ff,g) 最 重要 的 三 个 性 质 。 证 明 这 三 个 等 式 描 述 
的 性 质 。 


6. 23 证明 下 面 的 说 法 : 
如 果 厅 在 一 个 再 生 核 上 (xX,x )， 那 么 该 核 是 唯一 的 。 
计算 机 实验 
6.24 考虑 在 图 1.8 中 重合 不 可 分 的 情况 。 
(a) 重复 图 6.7 中 的 第 二 部 分 实验 ， 两 个 月 亮 之 间 的 垂直 可 分 界 为 d 一 一 6.5。 通 过 实验 决定 C 值 使 得 
识别 误差 达到 最 小 。 | 
Cb) 通过 设 定 降低 两 个 月 亮 之 间 的 垂直 距离 d= 二 一 6.75, 识别 误差 比 d= 一 6.5 时 更 高 。 通 过 实验 决定 
参数 C 使 得 训练 误差 最 小 。 
评价 你 的 结果 。 
6.25 在 至 今 的 监督 学 习 算 法 中 ， 支 持 问 量 机 以 其 强大 的 能 力 而 著名 。 在 这 个 问题 上 ， 支持 向 量 机 受到 了 图 
P6. 25“ 紧 握拳 头 ” 形 状 分 类 问题 的 挑战 。 图 中 三 个 同心 贺 的 半径 分 别 为 di 二 0.2， ds 一 0.5 和 ds 一 0.8 
(a) 产生 100 回合 ， 每 个 回合 随机 选择 200 个 训练 样本 ， 对 于 图 P6. 25 中 的 两 个 区 域 各 产生 相同 的 测 
ARE 
(b) 设 C= 二 500， 训 练 一 个 支持 向 量 机 。 据 此 ， 构 造 此 机 器 计算 出 的 决策 边界 。 
(c) 测试 网 络 并 且 确 定 分 类 的 误差 率 。 
(d) Xt C=100 A C=2 500 HAW ERR. 
评价 你 的 结果 。 


Xa 





图 P6.17 图 P6.25 
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Neural Networks and Learning Machines, 3E 


正则 化 理论 


本 章 组 织 

本 章 关 注 正 则 化 理论 的 多 个 方面 ， 它 是 所 有 神经 网 络 和 机 器 学 习 算 法 的 核心 。 在 7.1 节 介 
绍 基 础 知识 之 后 ， 我 们 按 以 下 顺序 组 织 本 章 

7.2 节 给 出 病态 求 北 问题 。 

7.3 节 给 出 Tikhonov 正则 化 理论 ， 它 提供 了 半 监 督学 习 算 法 的 正则 化 的 数学 基础 。 本 章 
此 部 分 也 包括 7.4 节 ， 关 注 隐 藏 层 与 训练 样本 数量 相同 的 正则 化 网 络 。7.5 节 讨 论 一 类 广义 径 
向 基 函 数 网 络 ， 其 隐藏 层 是 具有 正则 化 网 络 特征 的 子 集 。 正 则 化 最 小 二 乘 估计 在 7.6 节 中 被 重 
新 提 到 ， 作 为 广义 径 向 基 函 数 类 的 特例 。 接 下 来 ， 在 7.7 节 中 ， 我 们 说 明 由 正则 化 最 小 二 乘 估 
计 推 出 的 深刻 观点 ， 即 在 不 使 用 Tikhonov 正则 化 理论 的 情况 下 ， 如 何 被 用 于 其 他 估计 算 子 的 
正则 化 。 

7.8 节 描 述 基 于 交叉 验证 来 估计 正则 化 参数 的 一 个 过 程 。 

本 章 的 最 后 一 部 分 开始 于 7.9 节 中 对 半 监 督学 习 的 讨论 。 然 后 ， 关 于 流 形 正则 化 的 基本 观 
点 在 7. 10 节 到 7.12 节 中 讨论 。7.13 节 介 绍 光 谱 图 理论 。?7.14 节 讨 论 在 流 形 正则 化 理论 下 的 
广义 表示 定理 。?. 15 节 研 究 〈 使 用 带 类 标 样 本 和 无 类 标 样本 的 ) 光谱 图 理论 的 正则 化 最 小 二 
乘 估计 ， 其 作为 广义 正则 化 理论 的 一 个 应 用 实例 。 在 7.16 节 中 ， 我们 采用 最 小 二 乘 估计 给 出 
一 个 半 监 督学 习 的 计算 机 实验 。 

7.17 节 给 出 本 章 的 小 结 和 讨论 。 


7.1 引言 


在 本 书 前 几 章 所 讨论 的 监督 学 习 算 法 中 ， 我 们 发 现 尽管 过 程 不 同 ， 但 它们 都 有 一 个 共 
同 点 : 

通过 样本 训练 一 个 网 络 ， 对 于 给 定 的 输入 模式 给 出 输出 模式 ， 等 价 于 构造 一 个 超 平 面 《 即 
多 维 映射 )， 用 输入 模式 定义 输出 模式 。 


从 样本 中 学 习 是 一 个 可 逆 的 问题 ， 因 为 其 公式 是 建立 在 由 相关 直接 问题 的 实例 中 获得 的 知 
识 之 上 ; 后 一 类 问题 包含 潜在 的 未 知 物理 定律 。 但 是 ， 在 现实 情况 下 ， 我 们 通常 发 现 训练 样本 
会 受到 极 大 的 局 限 : 


训练 样本 所 包含 的 信息 内 容 通 常 不 能 够 充分 地 由 自身 唯一 地 重 构 出 未 知 的 输入 输出 映射 。 
因此 就 产生 了 机 器 学 习 的 过 拟 合 的 可 能 性 。 

为 了 克服 这 个 严重 的 问题 ， 我 们 可 以 使 用 正则 化 方法 ， 其 目的 是 通过 最 小 化 如 下 的 代价 函 
数 的 方法 把 超 平面 重 构 问 题 的 求解 限制 在 压缩 子 集中 : 

(正则 化 代价 函数 ) 二 (经 验 代价 函数 ) 十 (正则 化 参数 ) X (正则 化 项 ) 

给 定 一 个 训练 样本 ， 假 设 经 验 风险 或 标准 代价 函数 可 以 由 误差 平方 和 定义 。 附 加 的 正则 化 算 子 
是 用 来 平滑 超 平面 重 构 问 题 的 解 。 因 此 ， 通 过 选择 一 个 适当 的 正则 化 参数 〈 在 设计 者 控制 下 )， 
正则 化 代价 函数 提供 了 在 训练 样本 的 精度 (包含 在 均 方 误差 中 ) 和 解 的 光滑 程度 之 间 的 折 中 。 

本 章 学 习 两 个 基本 的 重要 问题 ， 

1. 经 典 正则 化 理论 ， 它 建立 在 我 们 刚刚 描述 的 正则 化 代价 函数 上 。 这 个 由 Tikhonov 
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(1963) 给 出 的 优美 理论 ， 为 前 面 章 节 中 讨论 的 正则 化 算 子 提供 了 统一 的 数学 基础 。 另 外 ， 它 提 
出 了 新 的 思想 。 

”2. 广义 正则 化 理论 ， 它 通过 引入 第 三 个 项 ， 扩 展 了 Tikhonov 的 经 典 正 则 化 理论 公式 。 这 
个 新 项 叫做 流 形 正 则 化 算 子 ， 由 Belkin 等 (2006) 提出 ， 研 究 用 于 产生 无 类 标 样 本 ( 即 没 有 陡 
期 响应 的 样本 ) 的 输入 空间 的 边缘 概率 分 布 。 此 广义 正则 化 理论 对 依赖 于 结合 使 用 带 类 标 样 本 
和 无 类 标 样 本 的 半 监 督学 习 提 供 了 数学 基础 。 


7.2 和 良 态 问题 的 Hadamard 条 件 


BA (well posed) 这 个 词 是 由 Hadamard(1902) 最初 提 出 的 ， 并 且 在 应 用 数学 中 一 直 演 
用 至 今 。 要 解释 这 个 术语 ， 假 定 我 们 有 一 个 定义 域 史 和 一 个 值 域 @， 其 中 通过 一 个 固定 但 未 知 
的 映射 了 关联 。 如 果 以 下 三 个 Hadamard 条 件 成 立 ， 那 么 重 构 映射 了 的 问题 就 被 称 为 是 良 态 的 
(Tikhonov and Arsenin, 1977; Morozov, 1993; Kirsch, 1996); 

1. 在 在 性 ”对 于 每 个 输入 向 量 ICZ, FET y= fC, HP yey, 

2. 唯一 性 ”对 于 任意 输入 向 量 对 xiE&%， 有 fOO= f(D SAMS xst, 

3. 连续 性 有 上 映 射 了 是 连续 的 ; 即 对 于 任意 的 e> peat A) 

0， 存 在 6 二 6(e) 使 得 条 件 o (x. <8 HG 0, fC, 
f(t))<e。 其 中 oC(，,。) 表 示 两 个 变量 各 自 空 间 之 间 
的 距离 。 此 准则 如 图 7.1 所 示 。 连 续 性 同样 也 称 为 稳 
定性 。 

如 果 这 些 条 件 中 的 任何 一 个 都 不 满足 ， 就 称 此 问 定义 域 义 ERY 
题 为 病态 的 〈ill posed) 。 基 本 上 说 ， 病 态 问 题 意味 者 图 7.1 从 输入 域 多 到 输出 域 史 的 映射 举例 
大 的 数据 集 可 能 只 包含 关于 预期 解 的 一 小 部 分 信息 。 

在 监督 学 习 的 环境 下 ，Hadamard 条 件 可 能 由 于 以 下 原因 被 破坏 。 一 ， 存 在 性 准则 可 能 会 
因为 对 于 每 个 输入 不 一 定 存在 唯一 的 输出 而 被 破坏 。 二 ， 训 练 样本 中 可 能 没有 许多 我 们 所 需 权 
的 用 于 构造 一 个 唯一 的 输入 输出 映射 的 信息 ; 因此 ， 唯 一 性 准则 可 能 被 破坏 。 三 ， 在 实际 训练 
数据 中 噪声 或 不 准确 数据 是 不 可 避免 的 ， 这 增加 了 重 构 过 程 的 不 确定 性 。 特 别 地 ， 如 果 输 入 数 
据 中 的 噪声 级 别 很 高 ， 神 经 网 络 或 机 器 学 习 会 对 定义 域 多 中 的 特定 输入 xx 产生 一 个 在 值 域 % 之 
外 的 输出 ; 换 而 言 之 ， 连 续 性 准则 可 能 会 被 破坏 。 如 果 一 个 学 习 问 题 不 具有 连续 性 ， 则 所 计算 
的 输入 输出 映射 与 学 习 问 题 的 准确 解 无 关 。 没 有 什么 办 法 可 以 解决 这 些 困难 ， 除 非 我 们 可 以 获 
得 一 些 关于 输入 输出 上 映射 的 先 验 信 息 。 在 这 个 背景 下 ， 我 们 可 以 用 Lanczos 关于 线性 微分 算 子 
(Lanczos, 1964) 的 一 句 论 断 提醒 我 们 自己 : 


任何 数学 技巧 都 不 能 补救 信息 的 缺失 。 





7.3 Tikhonov 正则 化 理论 


1963 年 Tikhonov 提出 了 一 种 新 方法 用 以 解决 病态 问题 ， 该 方法 就 是 正则 化 。 在 曲面 重建 
的 问题 上， 正则 化 的 基本 思想 就 是 通过 某 些 含有 解 的 先 验 知识 的 非 负 的 辅助 泛 函 来 使 解 稳 定 。 
先 验 知 识 的 一 般 形 式 涉 及 假设 输入 输出 映射 函数 〈 即 重建 问题 的 解 ) Bot, BD 
对 于 一 个 光滑 的 输入 输出 映射 ， 相 似 的 输入 对 应 着 相似 的 输出 。 
具体 来 说 ， 我 们 将 用 于 逼近 的 输入 输出 数据 〈 即 训练 样本 ) 集合 描述 如 下 : 
输入 信 与 x; € R”, t= 2a aN 
期 望 响 应 d E R, i=1,2,…,N (7.1) 
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注意 这 里 假定 输出 是 一 维 的 。 这 种 假设 并 不 会 限制 这 里 讨论 的 正则 化 理论 的 一 般 性 应 用 。 用 
F(Cx) 表 示 通 近 孙 数 ， 这 里 为 了 方便 表达 ， 我 们 在 变量 中 省 掉 了 神经 网 络 的 权 值 向 量 w。 从 根本 
Edi. Tikhonov 的 正则 化 理论 包含 两 项 : 

1. 误差 函数 ， 该 项 用 名 (下 表示， 以 通 近 函数 F(x,) 和 训练 样本 (xd ) :的 形式 定义 。 例 
We oh Hk: 


2h) = Zw, — Fox)» (22) 


其 中 多 中 的 下 标 s 表示 “标准 化 。 ee 即 支 持 向 量 机 ， 我 们 有 边缘 损 
KAR: 


@(F) = > maxt0,1 — diF Cx)), dE els) 


我 们 当然 可 以 把 所 有 的 例子 包含 在 一 个 简单 的 公式 中 ， 但 这 两 个 基本 损失 函数 的 含义 是 完全 不 
同 的 ， 它 们 的 理论 研究 也 早晚 会 被 不 同 对待 。 为 了 能 够 清楚 地 阅 述 ， 我 们 将 关注 式 (7.2) 中 的 
误差 函数 。 

2. 正则 化 项 ， 用 儿 (CF) 表 示 ， 依 赖 于 逼近 函数 F(x;) 的 “几何 ”性 质 。 具 体 定义 为 


é(F)= >| DF ||? (7. 3) 


其 中 , & PRT ERARE, DERKNRMDR ST. KM Iia Af RN PR FC x)) 
的 形式 的 先 验 知识 就 包含 在 算 子 D 中 ， 这 就 自然 使 得 D 的 选取 与 所 解 的 问题 有 关 。 我 们 也 称 D 
为 稳定 因子 〈stabilizer) ， 因 为 它 使 正则 化 问题 的 解 稳定 ， 使 解 光 少 从 而 满足 连续 性 的 要 求 。 
但 是 ， 光 滑 性 意味 着 连续 性 ， 而 相反 未 必 为 真 。 用 于 处 理 式 (7. 3) 所 描述 情况 的 解析 方法 是 建 
立 在 第 6 章 所 讨论 的 Hilbert 空间 的 概念 之 上 的 。 在 这 样 的 多 维 〈 严 格 说 来 是 无 限 多 维 ) 空间 
中 ， 一 个 连续 函数 由 一 个 向 量 来 表示 。 通 过 使 用 几何 图 像 ， 我 们 就 可 以 在 线性 微分 算 子 和 和 矩阵 
之 间 建 立 深刻 的 联系 。 由 此 对 线性 系统 的 分 析 就 可 以 转变 为 对 线性 微分 方程 的 分 析 (Lanczos, 
1964)。 于 是 ， 式 (7.3) 中 的 符号 上 "| 表示 定义 在 DF(x) 所 属 的 Hilbert 空间 上 的 范 数 。 把 线性 
微分 算 子 D 看 成 一 个 从 下 所 属 的 函数 空间 到 Hilbert 空间 的 上 映射， 我们 很 自然 地 在 式 (7.3) 中 
使 用 L: 范 数 。 

训练 样本 = {xsd ， 由 一 个 物理 过 程 产 生 ， 用 如 下 的 回归 模型 表示 : 

di = f(x:) te i= 1,2, N 

其 中 x 是 回归 量 ，d; 是 响应 ，s; 是 解释 误差 。 严 格 地 说 ， 我 们 需要 函数 f(x) 是 有 Dirac delta 
分 布 形式 的 带 有 再 生 核 的 再 生 核 Hibert 核 空 间 (RKHS) (Tapia and Thompson, 1978); 此 
要 求 的 必要 性 将 在 后 面 的 讨论 中 给 出 。RKHS 的 概念 已 在 第 6 章 中 讨论 过 。 

今 名 (F) 表 示 标 准 代价 (损失 〉 函数 ，Q(CF) 表 示 正 则 化 函数 。 则 假定 在 正则 化 理论 中 ， 用 
于 最 小 化 的 最 小 二 乘 损 失 量 为 : 


Wn (7. 4) 


其 中 是 一 个 称 为 正则 化 参数 的 正 实 数 ，%(F) 叫 做 Tikhonov 泛 函 。 泛 函 Ce ME Ha SY 
函数 空间 中 ) 把 函数 映射 为 实数 。Tikhonov 泛 函 名 (FF) 的 最 小 点 〈( 即 正则 化 问题 的 解 〉 用 
F(x) 表示。 值得 注意 的 是 ， 式 (7. 4) 可 以 看 作 一 个 有 约束 的 最 优化 问题 ， 在 施加 在 Q(F) 上 的 
约束 条 件 下 最 小 化 有 (CEF)。 为 了 实现 此 目的 ,我们 强调 一 个 在 逼近 函数 下 的 复杂 度 上 的 显 却 
AR o 

另外 ， 我 们 可 以 把 正则 化 参数 和 看 作 在 由 给 定 训练 样本 确定 的 解 F (x) 的 充分 条 件 的 指 
器 。 特 别 地 ， 在 A>0 极限 条 件 下 ， 此 问题 是 无 约束 的 ， 因 为 R(x) 的 解 完全 由 样本 确定 ， 
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另 一 个 人 一 ce 的 极限 条 件 下 ， 由 微分 算 子 D 施加 的 先 验 光滑 约束 对 求解 POOR FET. RA 
话说 ， 样 本 是 不 可 殷 的 。 在 实际 应 用 中 ， 正 则 化 参数 1 被 赋予 一 个 在 这 两 种 极限 条 件 之 间 的 
值 ， 所 以 训练 样本 和 先 验 知识 都 可 以 对 求解 F(x) 起 到 作用 。 FA, IEW REC) = 


L DFI 代表 一 个 复杂 度 昼 函数 模型 ， 其 对 最 终 解 的 影响 由 正则 化 参数 4 控制， 


另外 ， 我 们 可 以 把 正则 化 过 程 看 作对 第 2 章 中 所 讨论 的 有 偏方 差 问题 的 解决 。 特 别 地 ， 正 
则 化 参数 的 最 优选 择 可 用 来 通过 加 入 正确 的 先 验 信息 ， 以 在 模型 偏 置 和 模型 方差 中 平衡 来 实 
现 。 此 方法 可 以 解决 一 些 学 习 问 题 。 
Tikhonov 正则 化 应 用 | 

对 正则 化 理论 的 讨论 至 此 ， 我 们 一 直 强 调 如 使 用 式 (7.1) 中 4d;€ RR 的 回归 问题 。 然 而 ,我 
们 必须 认识 到 Tikhonov 正则 化 理论 同样 可 以 应 用 于 以 下 两 个 其 他 领域 : 

1. 分 类 。 此 问题 可 以 简单 地 通过 诸如 把 二 值 类 标 当 作 标 准 最 小 二 乘 回归 中 的 实 值 来 解决 。 
在 另外 的 例子 中 ， 我 们 可 以 使 用 经 验 风险 CR RR. MARA TRA MWK 
损失 。 第 6 章 中 讨论 的 支持 向 量 机 就 是 如 此 。 

2、 寻 构 预 测 。 在 一 些 最 近 的 工作 中 ， 已 将 Tikhonov 正则 化 理论 用 于 结构 预测 ， 比 如， 输 
出 空间 可 以 是 一 个 序列 、 一 棵 树 或 其 他 一 些 结构 的 输出 空间 (Bakir 等 ，2007) 。 

这 里 我 们 希望 强调 的 是 ， 正 则 化 理论 在 几乎 所 有 的 需要 从 有 限 数量 的 训练 样本 中 学 习 的 应 
用 中 都 处 于 核心 地 位 。 
Tikhonov % M ff} Fréchet 微分 

正则 化 原理 可 以 表述 如 下 : 


求 使 Tikhonov % BECP) R hajg BRK F(x), Tikhonov 24 8 
ECF) = €@(F) +1 € (PF) 
定义 ， 其 中 如 (FF) 是 标准 误差 项 ， 吕 (FF) 是 正则 化 项 ， 而 入 是 正则 化 参数 。 


为 进行 代价 泛 函 BC(F) 的 最 小 化 ， 我 们 首先 需要 求 (F) 微 分 的 规则 。 可 以 用 Fréchet 微分 
来 处 理 这 件 事 。 在 初等 微 积 分 中 ， 曲 线 上 某 点 的 切线 是 在 该 点 令 域 上 的 曲线 的 最 佳 表 近 直 线 。 
同 理 ， 一 个 泛 函 的 Fréchet 微分 可 以 解释 为 一 个 最 佳 局 部 线性 通 近 。 这 样 泛 肾 名 (下 ) 的 Fréchet 
微分 可 正式 定义 如 下 : 


d BE(F,h) = [gg GCF + Ah | (7. 5) 
B=0 


其 中 h(x) 是 一 个 辐 定 的 关于 向 量 x KIRK% (Dorny, 1975; Debnath and Mikusinski, 1990; 
de Figueiredo and Chen，1993)。 在 式 (7. 5) 中 应 用 通常 的 微分 法 则 。 对 于 所 有 的 hE 光 ， 函 数 
F(x) 为 泛 少 (CF) 的 一 个 相对 极 值 的 必要 条 件 是 ， 泛 函 名 (F) 的 Fréchet 微分 d CCF ANE F(x) 处 
WHE, RRA 
d BF,h) = d EF, h) +Ad& (Fh) = 0 (7. 6) 
其 中 d&(F WM d&(F ARES ME (CF) ME (CF) Fréchet 微分 。 为 了 简化 表示 ， 在 式 
(7. 5) FAFA h EAR AEA CX). 
计算 式 (7. 2) 中 标准 误差 项 8 (FAD 的 Fréchet 微分 如 下 : 
] ~ 
d&(F,A) =[q,6F +n) | = [= pli — F(x) — ph (ui) ] E an 


N N 
=— 》1[d — F) — BAG) Ja) [peo =— DLdi — FO) h(x) 
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Riesz 表示 理论 


为 了 继续 处 理 Hilbert 空间 中 的 Fréchet 微分 问题 ， 我 们 发 现 引 人 Riesz 表示 定理 是 有 益 
的 ， 陈 述 如 下 (Debnath and Mikusinski, 1990); 


& f A Hilbert 空间 光 上 的 一 个 有 界线 性 泛 函 。 存 在 一 个 h。E 光 ， 使 得 
f) = 二 (hh,ho),， 对 所 有 hE 
E 
I fll = Wao ll y 
其 中 有 和 在 它们 各 自 空间 上 都 存在 范 数 。 


这 里 所 用 的 符号 Cs "表示 呈 空 间 上 两 个 图 数 的 内 积 〈 标 量 ) 。 因 此 ， 根 据 Riesz 表示 定 
H, 可 以 重 写 式 (7.7) 中 的 Fréchet 微分 dé (CF, AOE: 


d€ (FA) =— lh, >) (di — F8x,)y (7. 8) 
其 中 6. 表示 以 x 为 中 心 的 x 的 Dirac delta 分 布 ; 即 | 
dx, (x) = d(x — x;) (7.9) 


下 面 计 算式 (7. 3) 的 正则 化 项 多 (FF) 的 Fréchet 微分 。 用 与 上 面 同 样 的 方法 可 以 得 出 〈 假 设 
DFEL, (R™)): 


eee 
d&(F yA) =E EHG) | =4 at 


=| DCF +f DA dx|,-0 =| .DFDP dx = (Dh,DF), 


其 中 (DA, DF), # RMR DACA DEORA, RR Dh(x) 和 DF(C(x) 分 别 代 表 了 微分 算 子 D 
作用 在 h(x) 和 F(x) 上 的 结果 。 
Euler- 拉 格 朗 日 方程 


给 定 一 个 线性 微分 算 子 D， 我 们 可 以 唯一 确定 它 的 伴随 莽 子 (adjoint operator) D, 8 
对 任 一 对 足够 可 微 且 满足 恰当 的 边界 条 件 的 函数 u(x) 和 wlx) 有 CLanczos, 1964); 


| U(X)Dvu(x) dx = | noou dx (7.11) 
R 


等 式 (7. 11) 叫 做 Green 恒等式 ， 它 为 通过 给 定 微分 算 子 D 来 确定 其 伴随 算 子 也 提供 一 个 数学 基 
础 。 将 D 看 作 一 个 矩阵 ， 则 其 伴随 算 子 了 的 作用 类 似 于 一 个 转 置 矩阵 的 作用 。 
比较 式 (7. 11) 的 左边 和 式 (7. 10) 的 第 四 行 ， 我 们 可 得 出 如 下 恒等式 : 
u(x) = DF (x) 
Do(x) = Dh(x) 
根据 Green 人 恒等式， 可 将 式 (7. 10) 重 写 为 如 下 等 价 形 式 : 


l (DCF + Bh J)? dx | peo 
(7. 10) 


JECFA) = | | ROODDFCOdx = (h, DDP), (7. 12) 
其 中 BD 是 D 的 伴随 算 子 。 
KNC. 8) 和 式 (7.12) 代 入 极 值 条 件 (7. 6) 中 ， 可 以 重新 得 到 Fréchet 微分 4 (下 ,hh) 如 下 : 
E ppDF 一 二 > (a — Pa, (7. 13 
dF,h) = Cho |B 2 A. ) 


因为 正则 化 参数 1 通常 取 开 区 间 (0, œ) 上 的 某 个 值 ， 所 以 当 且 仅 当 下 列 条 件 在 广义 函 
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数 F=F, 下 满足 时 ， 对 于 空间 % 中 的 所 有 函数 ACK), Fréchet 微分 d ECF AA HE: 
is 和 
DDF, TIa — F,)8,, = 0 
或 者 等 价 于 : 
BDF, (x) = 这 > [ad — F(x) 0x x) (7. 14) 


xh (7. 114) Æ Tikhonov 7 ECF) ÁJ Euler- 拉 格 朗 日 方程 ， 它 定义 了 Tikhonov @ MEF) E 
F(x) 人 处 有 极 值 的 必要 条 件 (Debnath and Mikusiński, 1990). 

Green 因数 

式 (7. 10 RANA, 的 偶 微 分 方程 。 该 方程 的 解 是 由 方程 右边 的 积分 变换 组 成 的 。 
我 们 现在 先 简单 地 介绍 Green phi, SA JG EAR AER HTK (7.14), 

& Gx.) 表示 回 量 x 和 8&6 的 一 个 函数 ， 两 个 癌 量 的 地 位 相同 ,但 它们 的 目的 不 同 : 向 量 x 
作为 参数 ， 而 向 量 & 则 作为 自 变 量 。 对 于 给 定 的 线性 微分 算 子 L， 我 们 规定 孔 数 G(x,&) 满 足 如 
下 条 件 (Courant and Hilbert, 1970); 

1. SAW €,GCx.6) 是 的 图 数 ， 且 满足 规定 的 边界 条 件 。 

2. 除了 在 点 x 二 6 外 ，G(x,&) 对 于 x 的 寻 数 是 连续 的 。 导 数 的 次 数 由 线性 算 子 工 的 阶 数 

3. 将 Gx.) 看 作 r eR, BRIER xb ab, EEO DE 


LG(x,E) = 0 (7.15) 
也 即 函 数 G(x. DWE CHES RRA RP 
LG(x,&) = d(x — §) (7. 16) 


其 中 ， 如 前 定义 SCx 一 外 是 位 于 点 x=€E MY Dirac delta RR. 

上 述 的 函数 GCGx,) 叫做 微分 算 子 于 的 Green A4 (Courant and Hilbert, 1970), Green 
苯 数 对 于 线性 微分 算 子 的 作用 类 似 于 一 个 矩阵 的 逆 和 矩阵 对 该 矩阵 方程 的 作用 。 

S p(x) 表示 一 个 关于 E R” HEM AD BEY HR. ABA RR 


F(x) =i G(x, BE plE de (7.17) 
R a 


就 是 微分 方程 
LF(x) = g(x) (7. 18) 


的 解 ， 其 中 GO, E 是 线性 微分 算 子 工 的 Green KA. 
为 了 证 明 F(X) 为 式 (7. 18) 的 解 ， 我 们 将 微分 算 子 工 应 用 于 式 (7.17) 的 两 疾 ， 可 得 


LF(x) = i x G(x, 8) 9(B)d(&) = = LG(x, 8) o(&) dé (7.19) 


MOBS LBEMABE, CEAT COE) 时 仅 将 其 视 为 x 的 函数 。 将 式 (7.16) 代 人 式 
(7.19, & 


LF(x) = e d(x — BoB) dk 
最 后 ， 利 用 Dirac Delta 函数 的 筛选 性 质 ， 可 得 

e PES EdE = glx) 
这 样 就 得 到 了 如 式 (7. 18) 所 描述 的 LF(x) 二 g(x)。 
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正则 化 问题 的 解 
回 到 当前 的 问题 ， 下 面 我 们 来 解 Euler- 拉 格 朗 日 微分 方程 ， 即 式 (7. 14) 。 令 
L = DD (7. 20) 
Ail ; 
pD = +D Ea; — FJG — x). (7. 21) 


那么 根据 式 (7.17)， 有 
F =| n GE) (3 Dd Fo) x) | ag 


T —x, 
=F DI — POW), GO IE — x)d 


上 式 第 二 行 交 换 了 积分 与 求 和 的 次 序 。 最 后 ， 利 用 Dirac Delta MAW ii pe tE., AP WB a 
Eujler- 拉 格 明 日 微分 方程 〈7. 14) 的 解 如 下 ， 


Fix) = 4 ita — F(x) JGCx,x,) (7. 22) 


式 (7. 22) 说 明正 则 化 问题 的 最 小 化 解 F GO dE N 个 Green 函数 的 线性 全 加 。x; 代表 扩展 中 

， 权 值 [d Fa JA 代表 展开 系数 。 换 句 话 说 ， 正 则 化 问题 的 解 在 光滑 琐 数 的 空间 的 一 个 
RTS JE, LA xi;i = 1,2, N 为 中 心 的 一 组 Green RM (GCx.x,)} 组 成 了 该 子 空 间 的 基 
(Poggio and Girosi，1990a)。 注 意 式 (7. 22) 中 ， 展 开 系 数 具 有 如 下 性 质 

。 与 系统 的 估计 误差 (定义 为 应 有 输出 d: 和 相应 的 网 络 实 际 计算 输出 天 (x) 之 差 ) BA 


性 关系 。 
。 与 正则 化 参数 1 RAK, 
确定 展开 系数 
下 面 将 要 解决 的 问题 是 如 何 确定 式 (7. 22) 中 的 展开 系数 。 令 
wi = =[d; — F(xi)], i = La 2 (Erha) 
则 正则 化 问题 的 最 小 化 的 解 式 (7. 22) 可 以 改写 成 如 下 形式 ， 
F, (x) = Y wG, xi ) (7. 24) 
分 别 在 %GG 一 1，2，…，N) 上 计算 式 (7. 20 ff 可 得 
F, (x;) = Sucua 7 = 1,2,.° ,NN (7. 25) 
现在 我 们 引入 如 下 定义 : 
F, = [F ax), E Ox.) 0 Fy On (7. 26) 
d = [di sdz; sdn | (IRT) 
CCX 9x1) GXXX) =e GOX Xx) 
G = PEN Be eed G (7. 28) 
(z(XN ,X1 ) G(XN sX; ) are (r(xXN Xy) 
w 一 EZ 9 Wa 9 *** slap | (7. 29) 
然后 式 (7. 23) 和 式 (7. 25) 可 分 别 写 成 矩阵 形式 : 
w= (d—F,) | (7. 30) 
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和 
F, = Gw (7. 31) 
消去 式 (7. 30) 和 式 (7. 31) 中 的 F,， 重 新 调整 项 可 得 
(GabDw=d (7.32) 


其 中 工 是 一 个 NXN EH BE, EE G 称 为 Green #4, 
AC. 20) 所 定义 的 线性 微分 算 子 工 是 自 伴 的 ， 它 的 伴随 算 子 等 于 它 自 身 。 因 此 ， 与 其 相关 
的 Green 函数 Gx. x ) 是 对 称 函 数 ， 即 对 所 有 的 ;，7 都 有 
G(x, yx) = GOs, x;) (7. 33) 
式 (7. 33) RH Green KA GH) 的 两 个 自 变量 x AC 的 位 置 是 可 以 互 换 的 而 不 影响 它 的 
值 。 等 价 地 ， 式 (7. 28) 所 定义 的 Green 矩阵 G Æi, B 
G 一 G (7. 34) 
现在 我 们 回顾 一 下 插值 定理 ,第 5 RAE D 对 定理 进行 描述 。 我 们 首先 注意 到 
Green Æ fE G 在 正则 化 理论 中 所 起 的 作用 与 插值 矩阵 © E RBF 插值 理论 中 所 起 的 作用 相同 。 
它们 都 是 NXN 阶 的 对 称 阵 。 因 此 ， 我 们 可 以 说 ， 对 于 某 类 Green 函数 ， 只 要 所 提供 的 数据 
FAX ,Xz，"… ,Xn 是 互 不 相同 的 ， 则 Green 和 矩阵 就 是 正定 的 。 满 足 Micehelli 定理 的 Green RRA 
括 道 多 二 次 函数 和 高 斯 函数 ， 但 是 没有 多 二 次 聘 数 。 实 际 上 ,我 们 总 是 将 * 选 得 足够 大 ， 使 得 
GHAI 是 正定 的 ， 从 而 是 可 逆 的 。 这 样式 (7. 32) 所 表示 的 线性 方程 组 就 具有 唯一 解 (Poggio 
and Girosi, 1990a); 
w = (G+ AD"'d (7. 35) 
因此 ， 只 要 选 定 了 微分 算 子 D， 从 而 确定 了 相应 的 Green 函数 Gx ,x;) ,i 二 1,2,…,NN, 我 
们 就 可 以 通过 计算 式 (7. 35) 得 到 与 某 一 特定 期 望 输出 向 量 d 以 及 合适 的 正则 化 参数 值 4 相对 应 
的 权 值 向 量 w。 
总 之 ， 我 们 可 以 说 正则 化 问题 的 解 可 以 由 以 下 展开 式 给 出 ， 


Fœ = >) wiGx.x;) (7. 36) 


相应 地 ， 我 们 可 以 作出 如 下 三 条 论断 : 
1. 最 小 化 式 (7.4) 中 的 正则 化 代价 函数 EC) 的 逼近 函数 F(x), H—-AF) Green 函数 的 线 
性 加 权 组 合 而 成 ， 其 中 每 一 个 Green 函数 都 仅 依 赖 于 一 个 稳定 因子 D。 
2. 在 展开 式 中 所 用 到 的 Green 函数 的 个 数 与 训练 过 程 中 所 用 的 样本 数据 点 的 个 数 相 同 。 
3. 展开 式 中 相应 的 N 个 权 值 由 式 (7.23) 中 的 训练 样本 {ziyadi) 和 正则 化 参数 的 形式 
如 果 所 选 的 稳定 因子 D 具有 平移 不 变性 ， 则 以 z; 为 中 心 的 Green 函数 G(x,x;) 只 取决 于 自 
变量 zx 和 xx; 之 差 ; 即 | 
G(x,x;) = G(x — x;) (7. 37) 
如 果 稳 定 因子 D 是 平移 不 变 和 旋转 不 变 的 ， 则 Green 函数 G(x,x;) 只 取决 于 向 量 x 一 xi 的 


欧 几 里 得 范 数 ， 表 示 为 
G(x,x;) = GC ||x—-x,; ||) (7. 38) 


在 这 些 条 件 下 ，Green RW—-EPRB MERA. UAT, x07. 36) 的 正则 化 问题 的 解 可 表示 
为 如 下 形式 : 


N 
F(x) = X wG lxx ||) (7. 39) 
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TE C7. 39) 所 描述 的 解构 造 一 个 依赖 于 已 知 数据 点 的 欧 几 里 得 距离 度量 的 线性 陋 数 空间 。 

式 《7. 39) 所 描述 的 解 叫 做 严格 播 值 解 ， 因 为 所 有 N 个 已 知 训练 数据 点 都 被 用 于 生成 插值 
ma Fox), (Ade, ABER MERC. 39) 与 式 (5. 11) 所 表示 的 解 有 根本 不 同 。 式 (7. 39) 的 解 
被 式 (7. 35) 给 出 的 权重 向 量 w 的 定义 所 正则 化 。 只 有 当 我 们 将 正则 化 参数 4 设 为 0 时， 这 两 个 
解 才 是 一 样 的 。 | 
多 元 高 斯 函数 

Green 函数 G(x, x) 的 相应 的 线性 微分 算 子 D 是 平移 不 变 和 旋转 不 变 的 并 且 它 满足 式 
(7. 38) 的 条 件 ， 此 时 Green 函数 具有 重要 实际 意义 。 这 类 Green 函数 的 一 个 例子 是 多 元 高 斯 函 


GCx,x;) = exp(— > a | x= x ||? | (7. 40) 


其 中 x 表示 函数 的 中 心 ， 而 o; 则 表示 它 的 宽度 。 与 式 (7. 40) 所 示 Green 图 数 相 对 应 的 自 伴随 
QF L=DD 由 下 式 给 出 : 











L = X (~ 1a, V” (7.41) 
其 中 
2n 
at i 
oo = oR (7. 42) 
而 Y* 是 mo 维 多 重 拉 普 拉 斯 算 子 | 
oO oO a 7 4 
2 -一 zén 
V S Gy al Toe (7.43) 


因为 式 (7. 41) 中 上 的 项 数 允 许 到 无 穷 大 ， 所 以 从 标准 意义 上 说 工 并 不 是 一 个 微分 算 子 。 
因此 ， 我 们 将 式 (7. 41) 中 的 工 称 为 伪 微 分 算 子 ，。 
由 于 定义 L=DD, eee e 





D= Stat? (2 oo). = i er 7.44 
2 Ce aes = var OL m, jue OTT OX2 DL, ( ) 

和 
人 _ <> ie O — 1 n Lie o” 7 45 
B= D oe ee | eer eee 


因此 通过 使 用 所 有 可 能 偏 导数 在 内 的 稳定 因子 ， 可 以 得 到 式 (7. 39) 形 式 的 正则 解 。 
ee 则 有 


(= 5 lxx l2) = 8(x— x) (7. 46) 

利用 起 (7.40) 定 义 的 Green HM GCxo%) 的 特殊 形式 ， 可 以 将 式 (7. 36) 给 出 的 正则 化 解 写成 多 
元 高 斯 函数 的 线性 全 加 形式 ， 如 下 所 不 : 

F(x) = > wiexp(— 5 sz iix—x |?) (7.47) 


其 中 线性 权 值 ww 由 式 (7. 23) 定 义 。 

在 式 (7. 47) 中 ， 定 义 逼近 函数 F(x) 的 各 高 斯 项 的 方差 是 不 同 的 。 为 简化 起 见 ， 通 常 认 
为 在 F(x) 中 对 所 有 的 i 都 有 o; 二 so。 尽管 这 样 设计 的 RBF 网 络 是 受到 一 定 限制 的 一 种 ， 但 其 仍 
不 失 为 一 个 通用 通 近 器 (Park and Sandberg,1991)。 


7.4 正则 化 网 络 
rk (7. 36) 给 出 AA) TE WHE 1E UE eR BX F, Cx) SEF AL FE x; 的 Green 函数 G(xX,X;) 的 展开 形式 ， 
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体现 了 如 图 7. 2 所 示 网 络 结构 的 一 个 实现 方法 。 基 于 明显 的 原因 ， 这 种 网 络 结构 被 称 为 正则 化 
网 络 (Poggio and Girosi，1990a)。 该 网 络 包 括 三 层 。 第 一 层 是 由 输入 节点 组 成 的 ， 输 入 节点 
数目 等 于 输入 回 量 z WER m. 〈 即 问题 的 独立 变量 数 ) 。 第 二 层 是 隐藏 屋 ， 它 是 由 直接 与 所 有 
输入 节点 相连 的 非 线 性 单元 组 成 的 。 一 个 隐藏 单元 对 应 一 个 数据 点 xi,i = 二 1,2,…,N， 其 中 NN 
表示 训练 样本 的 长 度 。 每 个 隐藏 单 元 的 激活 水 数 由 Green 函数 定义 。 因 此 第 ;个 隐藏 单元 的 输 
出 是 CCx,x)。 输 出 展 仅 包含 一 个 线性 单元 ， 它 与 所 有 隐藏 单元 相连 。 这 里 所 谓 的 “线性 ” 指 
的 是 网 络 的 输出 是 隐藏 单元 输出 的 线性 加 权 和 。 输 出 层 的 权 值 就 是 未 知 的 展开 系数 ， 如 式 
(7.23) 所 示 ， 它 是 由 Green 函数 G(x,x;) 和 正则 化 参数 4 决定。 图 7. 2 描绘 一 个 单 输出 的 正则 
化 网 络 的 结构 图 。 显 然 ， 我 们 可 以 将 其 推广 为 包括 任意 期 望 输出 数目 的 正则 化 网 络 。 


输出 


输入 向 量 x he 





输入 层 AN 个 Green 基因 输出 层 
数 的 隐藏 层 


图 7.2 正则 化 网 络 


图 7. 2 所 示 的 正则 化 网 络 假 设 Green 函数 G(x,x;) 对 所 有 的 i 都 是 正定 的 。 假 设 上 述 条 件 
成 立 ， 例 如 ，Green 函数 G(x,x;) 具 有 式 (7. 40) 所 示 的 高 斯 形式 ， 则 由 该 网 络 所 得 到 的 解 在 泛 
PREC) BME EM PREP “RE” DAR. MA. PR. IEW 
具有 如 下 三 个 如 图 7. 2 Aros 44 E ea He BA HE (Poggio and Girosi, 1990a): 
CO 正则 化 网 络 是 一 个 通用 逼近 器 ， 只 要 有 足够 多 的 隐藏 单元 ， 它 可 以 以 任意 精度 遏 近 
定义 在 R™ 的 紧 子 集 上 的 任何 多 元 连续 遂 数 。 
Ci) 由 于 正则 化 理论 导出 的 逼近 格式 的 未 知 系数 是 线性 的 ， 这 样 该 网 络 上 共有 最 佳 晕 近 性 
能 。 这 说 明 给 定 一 个 未 知 的 非 线性 函数 f/， 总 可 选择 一 组 系数 使 得 它 对 了 的 遏 近 优 
于 所 有 其 他 可 能 选择 。 由 正则 化 网 络 求 得 的 解 是 最 佳 的 。 


7.5 广义 径 向 基 沙 数 网 络 


由 于 输入 向 量 x 与 Green 函数 Gx,X;) (i 二 1,2,…,N) 之 间 的 一 一 对 应 的 关系 ， 有 了 时候 如 
果 N 太 大 了 ， 实 现 它 的 计算 量 将 大 得 惊人 。 特 别 是 在 计算 网 络 的 线性 权 值 〈 即 式 (7. 36) 中 的 
展开 系数 ) 时 ， 要 求 计 算 一 个 NXN MERRY, HAE N 的 多 项 去 增 长 KAIA N). 
男 外 和 矩阵 越 大 ， 其 病态 的 可 能 性 越 高 ; 一 个 矩阵 的 条 件数 被 定义 为 该 矩阵 的 最 大 特征 值 与 其 最 
小 特征 值 的 比值 。 要 克服 这 些 计 算 上 的 困难 ， 我 们 通常 要 降低 神经 网 络 的 复杂 度 ， 或 者 加 大 正 
则 化 参数 值 。 : | 

如 图 7. 3 所 描绘 的 降低 复杂 度 的 RBF 网 络 ， 在 一 个 较 低 维 数 的 空间 中 求 一 个 次 优 解 ， 以 
此 来 逼近 式 (7. 36) 所 给 出 的 正则 化 解 。 这 可 以 通过 变 分 问题 中 通称 Galerkin 方法 的 标准 技术 
实现 。 根 据 这 个 技术 ， 近 似 解 F* (Cx) 将 在 一 个 有 限 基 上 进行 扩展 ， 表 未 为 
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F (x) = weg let) (7. 48) 

其 中 (olx, ti) |i = 1,2,… ,mi} EHAKE RAR, AA ERIRE E MR EI 〈Pog- 

gio and Girosi, 1990a), SRAY ROU FX 2A Bt AY AE PY TS T A A ES PCB m 委 
N), ŽE w: WR- HARRER. MIE MIE, 

PX,t;) = 人 人 | x —t, |), i = 1,2, ,mi (7.49) 


输出 
F(x) 








输入 层 ma 个 径 向 基因 输出 层 
数 的 隐藏 层 


图 7.3 降低 复杂 度 的 径 向 基 水 数 网 络 


基 孙 数 的 这 个 特定 选择 是 唯一 的 选择 ， 只 有 当 m 一 N,， H 
AEE i = 1,2, , N 
时 ， 其 解 与 式 (7. 39) 的 正确 解 一 致 。 因 此 将 式 (7. 49) 代 入 式 (7, 48) 中 ， 重 新 定义 F OA 
F* (x) = SiG (xs t)) = > wer | x —t,|[) (7.50) 


Mt FAA E BY 1 Ue PA F’ OOR (7. 50) 的 展开 形式 ， 我 们 将 要 解决 的 问题 是 确定 一 组 新 的 
BE we ERR RECE  ) 最 小 化 ， 新 代价 泛 函 由 下 式 定 义 : 


N m, P 
€(F*) Dla Dwd t |) +a l DF II’ (7. 51) 
式 (7. 51) 右 边 第 一 项 可 以 写成 欢 几 里 得 范 数 平方 1d 一 Gw |? 
d 一 [add (7. 52) 
G(X] »t,) G(X; »t, ) ae G(x, stn, ) 
G(X, 1.) G(X: st; ) "aN G(X: stp ) l 
= i ' (7:53) 
(CTCXN sti) G(XN »t,) Tor G(XN stn ) 
w = [wer s Wast y Wm L (7.54) 


与 前 面 一 样 ， 期 望 响应 向 量 d 是 N 维 的 。 但 是 ，Green 函数 的 矩阵 G 和 权 值 向 量 w 却 有 不 同 
HBG FARE G 现在 是 NXm, 阶 的 ， 所 以 不 再 是 对 称 的 ， 而 向 量 w 是 mr X1 的 。 由 式 (7.50) 我 
们 注意 到 ， 近 似 函 数 F 是 由 稳定 因子 DREN Green 函数 的 线性 组 合 。 因 此 ， 可 以 将 式 
(7. 51) 右 边 第 二 项 写成: 


| DF* ||? =(DF* .DF*), = | wG DDD wG | 
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=| Y wG t), russ | = 5 Suut = w Gow (7.55) 
i=l i=] 


A j=l i=] 


其 中 第 二 个 和 第 三 个 相等 项 分 别 利用 伴随 算 子 的 定义 和 式 (7. 16), iM Go 是 一 个 m Xm 阶 
的 对 称 阵 ， 定 义 为 


G(t, ,t)) G(t, » te) aes Gt, sta ) 
Gt, >t) Gt, »t,) DR (Cr stn, ) 

= (7. 56) 
G(t,, sti) G(t,, st) anA G(t,, ot, ) 


以 权 值 向 量 w 为 变量 求 式 (7. 51) 的 最 小 值 ， 可 以 得 到 以 下 结果 (参看 习题 7. 4) : 
(G'G+AG,) W = G'd 
Fe NP A ew, 75 
w = (G'G+AG,) Gd Clot) 
当 正 则 化 参数 4 趋 近 等 时 ， 权 值 向 量 W 趋 于 一 个 超 定 的 最 小 二 乘 数 据 - 拟 合 间 题 (因为 
m<N) Wit Gavi) 解 ， 表 示 为 : 





w= G'd, A= 0 (7. 58) 
其 中 G 是 矩阵 G 的 伪 道 (colub and Van Loan, 1996); Ep 
C =G GCG) G: (7.59) 


加 权 范 数 
式 (7. 50) 中 的 范 数 通常 指 的 是 欧 几 里 得 范 数 。 然 而 ， 当 输入 向 量 x 的 分 量 属于 不 同 的 类 
时 ， 将 其 视 为 一 般 的 加 权 范 数 会 更 合理 ， 加 权 范 数 的 平方 形式 由 
| x || 2 = (Cx)? (Cx) = xC Cx (7. 60) 
定义 ， 其 中 C 是 一 个 mo Xm mR, m 是 输入 癌 量 x HAR, 
Al) FAD A He AY RE RATT BT ARC. 50) 中 正则 化 问题 的 近似 解 写成 如 下 更 一 般 的 形式 
(Lowe, 1989; Poggio and Girosi, 1990a); 


F* (x) = X wG || x—t le) (7. 61) 
i=] 


引 人 加 权 范 数 可 以 用 两 种 方式 解释 。 我 们 可 以 简单 地 将 其 视 为 对 原始 输入 空间 做 一 个 仿 射 
变换 。 原 则 上 这 种 变换 并 不 会 降低 原来 不 加 权 的 结果 ， 因 为 原来 不 加 权 的 范 数 实 际 上 对 应 于 一 
个 单位 矩阵 的 加 权 范 数 。 另 一 方面 ， 加 权 范 数 可 以 看 作 直 接 从 式 (7. 44) 和 定义 的 m 维 Laplace 
伪 微 分 算 子 D 的 少许 推广 。 使 用 加 权 范 数 的 合理 性 在 高 斯 径 向 基 函 数 背 景 下 可 以 解释 如 下 。 
一 个 以 所 为 中 心 和 具有 范 数 加 权 和 矩阵 C 的 高 斯 径 向 基 函 数 G(x 一 ti 上 ec) 可 写成 

GC || x—t || 一 exp[ 一 (人 一 和) CCCX 一 十 )] = exp] — TE at) | (7. 62) 

FL ph ha EE 

5x = c'c 

式 (7. 62) 中 的 广义 多 维 高 斯 分 布 有 一 个 指数 等 于 Mahalanobis 距离 ， 见 引言 章节 中 的 式 
(27)。 因 此 ， 由 式 (7. 62) 所 定义 的 核 称 为 Mahalanobis 核 。 这 个 核 已 在 第 6 章 的 习题 6.10 中 
有 所 讨论 。 

式 (7. 51) 中 逼近 问题 的 解 为 具有 如 图 7. 3 结构 的 广义 径 回 基 天 数 网 络 提供 了 一 个 框架 。 在 


这 种 网 络 中 ， 输 出 单元 上 有 一 个 偏 置 〈 即 独立 于 数据 的 变量 )。 要 做 到 这 一 点 可 以 简单 地 将 输 
出 层 的 一 个 线性 权 值 置 为 偏 置 值 ， 同 时 将 与 该 权 值 相对 应 的 径 向 基 画 数 视 为 一 个 等 于 十 1 的 
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常量 。 
从 结构 上 看 ， 图 7.3 所 示 的 广义 RBF 网 络 与 图 7. 2 所 示 的 正则 化 RBF 网 络 相似 。 但 它们 
在 以 下 两 个 重要 的 方面 有 所 不 同 : 

1. 图 7. 3 所 示 的 广义 RBF 网 络 隐藏 层 的 节点 数 为 m; ， 通 常 ml 总 是 小 于 用 于 训练 的 样本 
数 N。 另 一 方面 ， 图 7.2 所 示 的 正则 化 RBF 网 络 的 隐藏 单元 数 恰 为 N。 

2. 在 图 7. 3 的 广义 RBF 网 络 中 ， 与 输出 层 相 连 的 线性 权 什 向 量 ， 以 及 与 隐藏 展 相 连 的 径 
向 基 函 数 的 中 心 和 范 数 加 权 和 矩阵 ， 均 为 待 学 习 的 未 知 参数 。 而 图 7. 2 的 正则 化 RBF 网 络 隐藏 
层 的 激活 函数 是 已 知 的 ， 它 定义 为 一 组 以 训练 样本 点 为 中 心 的 Green 函数 ; 输出 层 的 权 值 向 量 
是 网 络 的 唯一 未 知 参数 。 


7.6 再 论 正 则 化 最 小 二 乘 估计 


我 们 一 开始 在 第 2 章 中 学 习 了 最 小 二 乘 估计 。 然 后 在 第 5 章 中 使 用 它 计 算 一 个 次 最 优 径 向 
基 函 数 网 络 的 输出 层 。 在 本 节 ， 我 们 再 次 讨论 这 个 相对 简单 但 很 有 效 的 估计 方法 。 这 里 ， 我 们 
注意 两 点 : 第 一 ， 我 们 要 指出 式 (7. 57) 的 公式 包括 正则 化 最 小 二 乘 佑 计 ， 且 后 者 是 前 者 的 一 个 
特例 。 第 二 ， 我 们 要 指出 ， 与 其 他 核 方法 一 样 ， 正 则 化 最 小 二 乘 估计 受到 表示 理论 的 控制 。 


把 最 小 二 乘 估计 看 作 式 (7. 57) 的 一 个 特例 


对 于 给 定 的 训练 样本 (xsd N o aho RHK EER RA FARE LB 2 章 ): 
BCG = yds A + 5A Iwll? (7. 63) 


HAA wWiENUAS KA. -MEMEA EE ERMA C. OPHRT AR, 
我 们 可 以 发 现 正 则 化 项 以 w 的 形式 简单 地 定义 : 
| DF ||? = || wll? =ww 
根据 上 式 ， 我 们 可 以 立即 设立 式 (7.57) 中 的 对 称 和 矩阵 Go 为 单位 阵 。 相 应 地 ， 式 (7.57) 之 
前 的 项 缩减 为 : 
(GTG++AD WwW=G'd 
接 下 来 ， 注 意 到 因为 最 小 二 乘 估计 是 线性 的 ， 且 缺失 隐藏 层 ， 我 们 可 以 把 式 (7. 53) 中 的 剩 
余 矩 阵 G 的 转 置 表示 为 : 
GP = [x 1X29 °t ,Xn | (7. 64) 
然后 ， 对 GT 使 用 此 表达 式 ， 对 关于 权 值 向 量 多 的 式 (7. 57) 中 的 正则 化 解 的 预期 响应 a 使 用 式 
(7. 52) 中 的 表达 式 ， 我 们 得 到 (经 过 一 些 代数 操作 )， 


W = (Ra +AD ra (7. 65) 
其 中 
z a 
i = = Yxa. 


式 (7. 65) 是 在 式 (2. 29) 中 定义 的 用 于 最 大 后 验 CMAP) (UN p E 如 前 所 述 ， 此 式 
同样 可 以 用 于 正则 化 最 小 二 乘 估 计 。 

对 相关 和 矩阵 Ra 和 互相 关 向 量 re 使 用 此 表达 式 ， 我 们 以 训练 样本 {x:，4i) 六 1 的 形式 重申 
式 (7.65) 中 的 公式 : 
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w = (X'’X+AD 'X'd (7. 66) 
其 中 和 是 输入 数据 矩阵 : 
ean X12 TIM 
Ko a en (7. 67) 
Lom TN “°° ENM 


其 中 下 标 N 是 训练 样本 的 个 数 ， 下 标 M ER WHER. Wid 是 预期 响应 问 量 ， 由 式 
(7. 52) EX; 在 此 ， 为 了 方便 起 见 ， 我 们 重新 写作 : 
= Ld, sdz seedy 
把 最 小 二 乘 估计 看 作 表 示 定 理 的 形式 
接 下 来 ， 把 最 小 二 乘 估计 看 成 一 个 “ 核 机 器 >”， 我 们 把 它 的 核 表 示 成 内 积 的 形式 : 


k(x,x;) = (XX) = X XI， i = 1,2, N (7. 68) 
下 面 引 和 人 第 6 EERE., TONE ea) eat Rae we: 
F, Cx) =s X'ak (x,x;) (7. 69) 


其 中 表示 系数 (aL, AURA (x,, di) A Ar E 问题 是 如 何 确 定 ? 
要 解决 这 个 问题 ， 首 先 使 用 如 下 等 式 : 
XIT(XXT 十 TI 一 (XIX 二 AL ' X'd (7. 70) 
其 中 X 是 一 个 NXM KWER, d&s NX 的 预期 响应 向 量 ， 它 是 正则 化 参数 ，Iv 和 Iw 分 
别 是 N 维和 M 维 的 单位 矩阵 。 其 中 M 是 权 向 量 w 的 维 数 。 对 于 式 (7.70) 中 和 矩阵 等 式 的 证 明 可 
见习 题 7. 11。 此 等 式 的 右 端 被 认为 是 最 优化 权 值 向 量 史 的 公式 ;有 见 式 (7.66)。 使 用 式 (7. 70) 中 
的 等 式 ， 我 们 可 以 通过 如 下 的 正则 化 最 小 二 乘 估计 ， 以 权 值 向 量 和 输入 向 量 x 的 形式 来 表示 通 
UT PRY : 
F (x) = x? w= x X' (XX + Aly) `d (7. 71) 
此 式 可 由 内 积 的 形式 表示 : 
F,(x) = k’(x)a = a’ k(x) (7.72) 
此 式 是 式 (7. 69) 的 表示 理论 的 矩阵 形式 。 由 此 得 出 : 
1. 核 的 行 向 量 以 输入 向 量 x 和 数据 矩阵 XX 的 形式 定义 ， 如 下 所 未 : 
kT (x) = [ECX，XI) ROKK.) 0 ROX XN) | = xX" = (Xx)? (7.73) 
此 向 量 是 一 个 1 乘 以 NTA. 
2. 表示 系数 向 量 a 由 估计 算 子 中 的 N XN 的 核 矩 阵 或 Gram 和 矩阵 KK、 正 则 化 参数 和 预期 响 
应 向 量 g 的 形式 定义 ， 如 下 : 


a 一 [a sdz ,CN gre (K+ Aly) d (7. 74) 
其 中 
x! x, Xi X; es x? XN 
T Ty ws) ly 
Rsk Ss) ee (7. 75) 
WX. XiXs '* XNXN 


描述 正则 最 小 二 乘 估 计 的 两 个 等 价 方 式 
由 本 章 中 所 谈论 的 内 容 ， 我 们 发 现 ， 事 实 上 有 两 种 描述 由 正则 化 最 小 二 乘 估计 实现 的 还 近 
PKI Æ F (x): l 
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1. 式 (7.71) 中 的 公式 ， 由 给 定 输入 向 量 x 的 权 值 向 量 % 所 定义 。 基 本 上 说 ， 这 个 公式 可 以 
追溯 到 第 2 章 中 讨论 过 的 用 于 最 小 二 乘 估计 的 规范 等 式 。 

2. 式 (7.72) 中 的 公式 ， 由 估计 算 子 的 核 的 形式 定义 。 第 二 个 公式 来 自 于 第 6 章 中 的 表示 
理论 。 这 个 公式 的 重要 实质 在 于 其 不 需要 计算 RLS 算法 中 的 权 值 向 量 。 这 也 是 第 6 章 中 所 讨 
论 的 核 方 法 的 本 质 。 

对 正则 化 最 小 二 乘 估计 的 第 一 个 观点 ， 以 规范 等 式 的 形式 给 出 ， 在 统计 学 中 是 常见 的 。 然 
而 ， 以 表示 理论 〈 在 核 学 习 中 常见 ) 给 出 的 第 二 个 等 式 是 新 的 。 


7.7 对 正则 化 的 附加 要 点 


基于 高 斯 的 径 向 基 函 数 网 络 的 一 个 属性 就 是 其 本 身 是 Tikhonov 正则 化 理论 的 严格 应 用 。 
这 在 7.4 节 和 7.5 节 中 已 证 明 。 而 如 7.6 节 所 示 ， 同 样 的 表示 可 适用 于 最 小 二 磁 佑 计 。 
本 节 的 目标 是 把 最 小 二 乘 估计 中 所 学 的 知识 ， 延 伸 到 使 用 Tikhonov 正则 化 理论 较为 困难 


回归 
(7. 63) 可 以 重 写成 如 下 形式 : 
BW) = Fd — wx) + al) wh)? (7. 76) 
Ls were 一 一 一 一 e 
正则 化 经 验 风险 ” 正则 化 项 
代价 函数 


从 回归 的 角度 上 看 ， 项 二 ‖| w i? 有 一 个 特定 的 直观 的 作用 。 从 几何 上 说 ， 最 小 化 代价 函数 


8B(w) 过 程 中 ， 包 含 正 则 化 项 十 w* 有 利于 找到 带 有 好 的 有 逼 近 属 性 的 平坦 的 机 数 。 事 实 上 ， 
这 也 是 4. 14 节 中 所 提 到 的 目标 ， 我 们 提出 最 小 化 代价 函数 ， 
EW = dF,w) + 2a wll! 


M amr 


a see e 
正则 化 经 验 风 险 正则 化 项 
Yt Be Z 


代 
此 最 小 化 代价 函数 可 作为 一 个 用 于 函数 通 近 的 多 层 感 知 器 的 正则 化 的 可 行 方法 。 此 方法 的 缺 
点 是 在 数学 上 很 难 把 Tikhonov 正则 化 理论 应 用 于 多 层 感 知 器 。 不 像 径 向 基 函 数 网 络 ， 多 层 感 知 


器 的 可 调整 的 突 角 权 值 在 隐 蕊 层 和 输出 层 中 分 布 。 从 实用 的 角度 上 看 ， 使 用 正则 化 项 书 ww 
是 一 个 理想 的 选择 。 
最 大 似 然 估 计 


从 第 2 章 处 理 的 最 小 二 乘 方 法 和 贝 叶 斯 估计 中 ， 我 们 发 现 最 大 化 后 验 参 数 估计 的 自 标 函 
数 ， 作 用 于 高 斯 环境 ， 可 以 由 如 下 公式 来 表示 MWAO. 22) 和 式 (2. 28)); 


LCw) se eed ae x, lwi? (7.77) 
-一 一 -一 一 一 一 

对 数 对 数 似 然 比 较 对 数 优 先 的 

较 晚 的 


Aik, RETUR | w l? 看 作 一 个 关于 极 大 后 验 参数 估计 中 潜在 结构 的 先 验 信息 。 


式 (7. 76) 和 式 (7. 77) 这 两 个 等 式 ， 分 别 定 义 了 Bg(w) 和 Ll(w)， 有 相同 的 数学 结构 ， 除 了 对 数 后 
验 概 率 LC(w) 是 正则 化 代价 函数 加 Cw) 的 负数 。 因 此 ， 正 则 化 项 和 先 验 信息 项 在 最 小 二 线 估 计 ， 
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或 高 斯 环境 下 的 最 大 似 然 估计 中 起 到 相同 的 作用 。 
在 最 小 二 乘 估计 中 推广 此 观察 ， 我 们 可 以 推导 出 以 正则 化 极 大 似 然 估 计 作 为 目标 蚂 数 的 估 
计 ， 其 表示 式 如 下 : 
L(w) = logl(w) 一 T Iwi” 
正则 化 对 数 似 正则 化 项 


对 数 似 然 概 率 《惩罚 项 ) 


其 中 ，w 是 待 优化 的 参数 向 量 。 基 本 上 说 ， 当 很 难 获得 一 个 用 于 估计 未 知 参数 向 量 w 的 最 大 似 
然 估 计算 法 的 先 验 知识 时 ， 从 似 然 概率 函数 LCw) 中 减 去 惩罚 项 分 w | 可 能 会 对 稳定 最 大 似 
然 估计 过 程 提供 一 个 理想 的 选择 。 

7.8 正则 化 参数 估计 


正则 化 参数 在 径 向 基本 数 网 络 ， 最 小 二 乘 估计 和 支持 向 量 机 的 正则 化 理论 中 起 着 核心 的 
作用 。 为 了 更 好 利用 这 个 理论 ， 我 们 需要 一 个 估计 的 相当 于 原理 性 的 方法 。 

要 形成 我 们 的 思想 ， 先 考虑 一 个 非 线 性 回归 问题 ， 它 由 一 个 模型 描述 ， 其 中 与 第 i 时间 步 
的 输入 向 量 x, 相对 应 的 可 观测 输出 y, 定义 为 : 


d; = f(x) +e, i 一 1,2， ,和 (7.78) 
此 处 f(%;) 是 一 条 “光滑 曲线 ”，e; 是 一 个 均值 为 零 和 方差 如 下 的 白 噪 声 过 程 的 采样 E 
= Os 当 kR=1 
Elec, | — 0, 否则 (7. 79) 


问题 是 在 给 定 一 组 训练 样本 (x. v Li WRT, BERRA R f(x) 
S F, (x) 为 fx) 相对 于 某 个 正则 化 参数 4 的 正则 化 估计 。 即 F (x) 为 使 表示 非 线性 回归 [By 
题 的 Tikhonov 泛 函 ( 见 式 (7. 4)〉 达到 最 小 的 最 小 化 函数 : 


ECF) = > > [d, — F(x) |? + 2 | DFCx) ||? 
选择 一 个 合适 的 4 AREARE, CREE RAF E AE o e E D A : 
。 H| DEO) ||? TKR E f E E 
。 id: — FG) PD 项 来 度量 数据 的 失真 度 。 
这 一 节 节 的 主题 是 讨论 如 何 选择 好 的 正则 化 参数 ve 


均 方 误差 
A> R(A) 表 示 模 型 的 回归 函数 f(x) 和 表示 在 正则 化 参数 4 某 一 值 下 的 解 的 逼近 画 数 下 (zxX) 
之 间 在 整个 给 定 集合 上 的 均 方 误差 。 即 . 
RO = PVG) — Roo! (7. 80) 


所 谓 最 佳 和 指 的 是 使 R(A) 取 最 小 的 A 值 。 
将 F(xi) 表 示 为 给 定 的 一 组 可 观察 值 的 线性 组 合 : 


F, (x) = $ ay (ad, (7. 81) 
1 一 1 


用 等 价 的 矩阵 形式 写成 : 
F, = A(A)d (7. 82) 
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其 中 d 是 预期 吃 应 向 量 〈 即 回归 模型 中 的 响应 向 量 )， 
F, = [F(x ) Fa Cx.) te Fy xy) |? 


H 
aii a&i? Qin 
d a s.s ad 
AQAY=|. a (7. 83) 
Qn, ano eee ANN 


其 中 NXN SER AORA aE. 
用 上 述 的 矩阵 符号 ， 我 们 可 将 式 (7. 80) 重 新 写成 : 


— lje T E ? 
RA) = N || f—F, || N | r—AQ)ad]| (7. 84) 


其 中 NX 1 的 回 量 了 为: 
f= [ f(x), f(x) oes f An 
我 们 可 以 进一步 将 式 (7. 78) 也 写成 矩阵 形式 : 
d=f+e (7. 85) 
其 中 : 
中 = [ei yey ，…，EN |? 
因此 ， 将 式 (7.85) 代 入 式 (7. 84) 中 并 展开 ， 可 得 
RQ =H OAVE -Ael’ 
i ; i (7. 86) 
R 由 NE A (AD)CI 一 信人)) 十 六 || ACAD e |]? 


其 中 工 是 一 个 NXN 的 单位 矩阵 。 求 RON 的 期 望 值 ， 需 要 注意 下 述 几 点 : 

L 式 (7. 86) 的 右边 第 一 项 是 一 个 常数 ， 因 此 它 不 受 期 望 算 子 的 影响 。 

2. 由 式 (7. 86) 可 知 ， 第 二 项 的 期 望 为 零 。 

3. 标量 AWO l” 的 期 望 为 : 

EL I| ADe ll? =ELe ATCA €] 
=tr(E[e’ATCA)AQCe]) = ELtr(e"A7Q)AQ)2®) | (7. 87) 

其 中 我 们 首先 用 到 了 标量 的 迹 等 于 标量 本 身 的 性 质 ， 然 后 交换 了 期 望 运算 和 求 迹 运算 的 
次 序 。 
4. 接 下 来 我 们 利用 矩阵 代数 中 的 如 下 规则 : 给 定 两 个 具有 相 容 维 数 的 矩阵 B A C, BCH 
迹 等 于 CB 的 迹 。 令 B 一 ar，C=ATGODAG)s， 则 式 (7.87) 可 以 写成 等 价 形 去: 


EC || ADE || 2] = E{tr[A7 A) AQ dee? ] = o tr LA? WAO) | (7. 88) 
上 起 中 的 最 后 一 行 根据 式 (7. 79) 可 得 。 最 后 注意 到 A7(4)A(4) 的 迹 等 于 A? (3) 的 迹 ， 则 
EL || ACAD E£ || ?] = P trLA? a) ] (7. 89) 
将 这 三 项 结果 结合 起 来 ，R() 期 望 值 可 表示 为 : 
OOR E oa 2 Ê ; 
ERA] = RIT AQF Hee ae tr[A (A) J (7. 90) 


但 是 ， 一 个 给 定数 据 集 的 均 方 误差 R(4) 在 实际 中 并 不 好 用 ， 因为 式 (7. 90) 中 需要 回归 哨 
数 f(x) 的 知识 ， 它 是 有 待 重建 的 晃 数 。 我 们 引入 如 下 定义 作为 RO) 的 估计 (Craven and Wah- 
bas 1979): 


n ine 1 — 2 CA 9 _o ioe 2 
RQ) = N | (I— ACA) )d || + tA (A) | trl A(A))? | (7.91) 
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” 它 是 无 偏 估 计 ， 因 此 (按照 导出 式 (7. 90) 所 述 的 相似 过 程 ) 我 们 可 证 明 : 
ELR) J = ELR) ] (7. 92) 

所 以 ， 使 估计 RO) 最 小 的 4 值 可 以 作为 正则 化 参数 4 的 一 个 好 的 选择 。 
广义 交叉 验证 | 

(AR RO) MAP iRB EE BORA RRB oo’. HERR, o 通常 是 未 知 的 。 
要 处 理 这 种 情况 ， 下 面 我 们 将 介绍 广义 交叉 验证 ， 它 最 早 是 由 Craven and Wahba(1979) # 
出 的 。 

我 们 从 修改 通常 的 交叉 验证 的 留 一 形式 〈 在 第 4 章 描 述 ) 开始 来 处 理 这 个 问题 。 具 体 地 
说 ， 令 FY Cx) AY R Be) EY BR RK 


1 ~ A 
Bmodifieg (F) == 7 2 la: — F (x) F 十 2 | DF C(x) | í CT: 93) 
x 


其 中 标准 误差 项 中 省 略 了 第 & 项 de F(x). RE GRO, RIE FY Oo Mi 
数据 点 d, 的 能 力 来 衡量 参数 4 的 好 坏 。 因 此 ， 引 入 性 能 度量 


= H > be Tk] 2 
VA) = N ould FA cx, ] (7.94) 
Vo AAR RR RF GE ASE. ORE A 的 普通 交叉 验证 估计 即 为 使 YoGA) 最 小 化 的 函数 CWahba, 


1990), 

FICx) 的 一 个 有 用 的 性 质 是 如 果 用 预测 Fr“ Cx ) 来 代替 数据 点 ds 的 值 ， 使 用 数据 点 di， 
Gd sd CN 使 式 (7. 4) 的 原始 Tikhonov Z RAEC RD, 则 FE Cx.) BREE BOR AY 
fe, PFPA x, BEES CH HRM ae F, (x) 线性 依赖 填 d:， 这 使 我 们 有 : 


FAA (x,) = ee + CFC) — dy) ore (7.95) 
k 
由 式 (7. 81) 所 定义 的 影响 矩阵 A(C) 的 分 量 ， 我 们 很 容易 看 出 : 
OF, Cx,) __ 
“od, = ay (A) C7. 96) 


其 中 ay (A) EE ACA) 对 角 线 上 的 第 上 个 元 素 。 将 式 (7.96) 代 人 式 (7.95) 中 并 解 PY Oa) 
的 方程 ， 可 得 


F, (xa) — au (Adi — Fix) —di 
ESE Ta) aoe i 0 
将 式 (7.97) 代 入 式 (7. 94) 中 ， 我 们 就 可 重新 定义 : 
1a ho 
Ve N | (7. 98) 


但 是 ， 对 于 不 同 的 &，auw (4) 的 值 是 不 同 的 ， 这 说 明 不 同 的 数据 点 在 Vo C4) 中 具有 不 同 的 作用 。 
为 了 避免 通常 的 交叉 验证 的 这 一 特性 ，Craven and Wahba(1979) 通过 坐标 旋转 引入 了 广义 交 
YUE (generalized cross-validation，GCVY)。 特 别 地 ， 式 (7.98) 中 的 VOREN: 
1 x d} — F,(x,) A 
VA) = Noa | (7.99) 


其 中 ， 权 系数 w 由 下 式 所 定义: 


2 


1 — Apk CA) 
l —— 
和 trLi ACA) | 


(7. 100) 


k 一 








这 样 广义 交叉 验证 函数 VO RAED : 
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N 
1S (dy — Fy) 
VO) = a er ee (7. 101) 
(xt ACA)] 


Rn. KAC. 81) 代 入 式 (7. 101)， 可 得 : 


二 A@))a Il? 
Va) = 一 一 一 一 一 (7. 102) 
(xt ACA) ]) 


上 式 在 计算 上 仅 依 束 于 和 数据 有 关 的 量 。 


广义 交叉 验证 函数 V(X) 的 最 优 性 
广义 交叉 验证 的 期 望 无 效 度 可 定义 为 : 
_ EEROA)] 
7 min ELR) | Sen 
Ep RG) 是 由 式 (7. 80) 定 义 的 数据 集 的 均 方 误差 。 自 然 ,， 三 的 渐 近 值 满足 条 件 : 
lim 1* =1 (7. 104) 


换血 话说 ， 对 于 一 个 很 大 的 NN， 使 VO0) 最 小 的 4， 同 时 也 使 RG) 接近 最 小 的 可 能 值 ， 这 
使 得 VO) 成 为 一 个 很 好 的 估计 4 的 工具 。 
评论 小 结 

一 般 的 想法 是 选择 一 个 使 在 整个 数据 集 上 的 均 方 误差 RG) 最 小 化 的 4 值 。 但 是 这 一 想法 
不 能 直接 实现 ， 因 为 RN) 中 包含 有 未 知 的 回归 函数 f(x)。 因 此 ， 在 实际 中 我 们 就 要 分 两 种 可 
能 性 来 处 理 : 

。 如 果品 声 方差 o 已 知 ， 就 选择 使 式 (7. 91) 的 估计 KG) 最 小 化 的 4 作为 最 佳 值 ， 这 里 的 

最 住 是 指 它 也 使 RCO) 最 小 化 。 
© to 未知， 我 们 可 以 选择 使 得 式 (7.102) 的 广义 交叉 验证 函数 V(X) 最 小 化 的 4 作为 
好 的 选择 ， 当 N->coe 时 ， 这 个 和 可 以 使 期 望 均 方 误差 逼近 其 最 小 可 能 值 。 

值得 注意 的 是 ， 使 用 广义 交叉 验证 方法 估计 4 所 依赖 的 理论 是 渐 近 的 。 只 有 当 所 得 的 数据 
集 大 到 能 使 信号 和 噪声 相 分 离 的 程度 ， 这 种 方法 才能 得 到 令 人 满意 的 结 采 。 

在 实际 使 用 中 ， 广 义 交 叉 验 证 方法 对 于 非 齐 次 方差 和 非 高 斯 噪声 情况 ， 表现 出 很 强 的 重 棒 
性 (Wahba，1990)。 但 是 如 果品 声 过 程 是 高 度 相 关 的 ， 这 种 方法 往往 得 不 到 满意 的 正则 化 参 
BA 的 估计 。 | 

需要 说 明 的 是 广义 交叉 验证 函数 的 计算 问题 。 对 于 一 个 给 定 的 正则 化 参数 的 试验 值 1， 求 
式 (7. 102) 中 分 母 [tr[I 一 AGQ)] /AN 将 是 计算 VO) PHA RAM EB}. TE Wahba 等 (1995 ) 
中 描述 的 “随机 化 迹 方法 ”可 以 用 于 计算 [Aw]: 这 种 方法 可 用 于 超大 规模 的 系统 。 

本 节 关 注 交 叉 验 证 ， 其 用 于 监督 学 习 中 估计 正则 化 参数 。 当 我 们 在 7. 12 节 中 讨论 半 监 督 
学 习 时 ， 会 发 现 需要 面 对 两 个 不 同 的 正则 化 参数 。 这 对 此 处 的 交叉 验证 理论 产生 一 个 有 趣 的 扩 
展 ， 使 其 适用 于 半 监 督学 习 。 


7.9 半 监 督学 习 


在 这 本 书 中 ， 从 第 1 章 的 感知 器 开始 ， 到 这 个 话题 为 止 ， 我 们 一 直 在 关注 监督 学 习 。 即 根 
据 给 定 的 训练 样本 {x;，qdi;}) 六 ;， 学 习 一 个 输入 输出 映射 关系 。 我 们 称 这 样 的 数据 集 叫 带 标记 
的 ， 即 对 于 每 个 i 来 说 ， 输 入 向 量 x, 都 配对 了 一 个 预期 的 响应 或 可 称 之 为 类 标 4;。 从 实用 的 角 
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度 上 看 ， 对 于 以 监督 的 方式 训练 一 个 网 络 ， 对 样本 手动 标记 类 标 不 但 是 一 个 耗费 大 量 时 间 和 成 
本 的 工作 ， 而 且 这 个 过 程 极其 容易 出 错 。 相 反 ， RAR PA 〈 即 不 带 有 预期 啊 应 的 样本 ) 
是 相对 低 成 本 的 ， 并 且 通 常 可 以 容易 地 获得 大 量 的 这 类 样本 。 根 据 这 些 现实 ,我们 如 何 利 用 可 
得 到 的 带 类 标 以 及 不 带 类 标的 样本 来 训练 网 络 呢 ? 这 个 具有 挑战 性 的 问题 的 答案 就 是 使 用 半 监 
督学 习 。 

在 这 个 新 的 学 习 方法 中 ， 输 入 数据 集 {x.} 六 ,被 分 成 两 部 分 

1. 一 个 样本 子 集 ， 记 为 (x;}{-!， 每 个 样本 的 类 标 (di};-! 是 提供 的 。 

基于 此 ， 我 们 可 以 把 半 监 督学 习 看 成 一 种 在 监督 学 习 和 非 监 督学 习 之 间 的 新 的 学 习 形式 。 
它 比 监督 学 习 要 困难 一 些 ， 但 又 比 非 监 督学 习 要 容易 一 些 。 

作为 一 个 具有 许多 潜在 应 用 的 课题 ， 半 监督 学 习 使 用 广泛 的 学 习 算 法 。 在 本 章 ， 我 们 关注 
基于 流 形 正则 化 的 核 方法 。“ 流 形 ” 是 指 一 个 & 维 的 拓扑 空间 能 和 人 到 一 个 维 数 大 于 & 的 n 维 的 
欧 几 里 得 空间 。 如 果 描 述 流 形 的 函数 是 可 偏 微分 的 ， 我 们 称 这 个 流 形 是 可 微 流 形 。 因 此 我 们 可 
以 把 一 个 流 形 的 概念 看 成 民 ? 空间 中 一 个 面 的 概念 的 泛 化 。 同 理 ， 可 以 把 可 微分 流 形 看 成 民 ” 
空间 中 可 微 面 的 沁 化 。 

对 于 关注 基于 流 形 正则 化 的 核 方法 有 以 下 三 点 原因 ， 

1. 对 于 半 监 督学 习 来 说 ， 核 方法 对 本 章 所 讨论 的 正则 化 理论 很 适合 。 

2. 流 形 正则 化 提供 了 对 于 构造 一 个 用 于 半 监 督学 习 的 依赖 数据 的 、 无 参数 的 核 的 有 力 的 
方法 。 

3. 使 用 流 形 正则 化 使 一 些 分 类 任务 产生 较 好 的 结果 。 

简单 地 说 ， 基 于 核 方法 的 流 形 正 则 化 具有 对 半 监 督学 习 理 论 产 生 深 远 影 响 的 潜能 。 


7.10 流 形 正 则 化 : 初步 的 考虑 


形式 : 
输入 空间 8 : 
Pe 分 布 
个 记 为 {x ) 世 si， 两 者 都 服从 一 个 固定 的 分 布 | 


图 7. 4 描述 了 一 个 半 监 督学 习 过 程 的 模型 。 在 图 中 和 本 章 余下 部 分 ,为 了 简化 表示 ， 我 们 
用 “分 布 ” 指 代 “ 概 率 密度 函数 ”。 为 了 继续 下 面 的 讨论 ， 图 7.4 中 的 模型 简化 为 如 下 数学 的 
1. 输入 空间 用 嘱 来 表示 ， 并 假定 是 静态 的 ; 
它 提 供 两 个 输入 数据 集 ， | wA {x i-s J= 
pe (x) .我 们 假定 这 也 属于 一 个 稳定 的 过 程 ， 
2. 对 于 (x,} 人 ,集中 的 每 一 个 输入 向 量 x，“ 教 | 







师 ” 提 供 类 标 d 。 类 标 来 自 于 输入 空间 %， 并 同 条 | 

件 分 布 pojx(d | x) 一 致 ， 是 固定 但 未 知 的 。 | 
3. 此 机 器 学 习 对 于 两 个 数据 集 产 生 一 个 输出 : 。 | 
。 {xi,di}i-! 来 自 输入 空间 ， 并 由 教师 给 出 类 


T 7 | T 带 类 标 数据 {X,4d) 人 i- 
标的 带 类 标 数 据 ， 服 从 联合 分 布 | : . 
pxp (xd) = pox (dk) px(x) (7.105) | ey oy 


BEATE, KORARA, 通过 | 
对 联合 分 布 px.p (x,d) 在 预期 响应 4 ER | LP, 
分 得 到 。 无 类 标 数据 

, 无 类 标 数据 {x} ’ 由 输入 数据 空间 多 Wi 
中 直接 得 到 ， 服 从 分 布 p(X)。 图 7.4 半 监 督学 习 过 程 模 型 


wwaibbt.com DUONDDDD 





第 7 章 正则 化 理论 . 217 


因此 ， 不 同 于 监督 学 习 ， 半 监督 学 习 中 的 样本 组 成 如 下 所 示 : 
(训练 样本 ) 和 Okie) state) ee) 
带 类 标的 无 类 标的 
在 模式 识别 或 回归 相关 问题 中 ， 由 于 用 流 形 正 则 化 在 改进 的 函数 学 习 中 有 所 不 同 ， 因 此 假 
定 在 分 布 px (x) 和 条 件 分 布 pxip(Cxja2) 之 间 存 在 一 个 等 价 关 系 。 基 于 如 下 两 个 重要 的 假定 
(Chapelle 等 ，2006)， 我 们 可 以 构造 这 两 个 分 布 之 间 可 能 的 关联 : 
1. ABR, MR PR: 


输入 空间 多 下 的 边缘 分 布 p(X) 由 低 维 数 的 流 形 提 供 。 


这 第 一 个 假设 的 含义 是 指 条 件 概率 函数 px (x|d) 相应 于 流 形 下 的 结构 而 缓慢 地 变化 〈 作 
K r HRO. 

这 里 我 们 提出 一 个 问题 : 如 何 使 用 此 流 形 假设 ” 要 回答 这 个 问题 ， 我 们 要 注意 如 第 4 章 一 
些 篇 幅 中 讨论 的 维 数 灾难 问题 。 简 单 地 说 ， 随 着 输入 空间 维 数 的 增加 ， 一 个 学 习 任 务 对 于 样本 
数量 的 需求 是 指数 增长 的 。 如 果 ， 已 知 数据 是 在 一 个 低 维 数 的 流 形 上 的 ， 我 们 可 以 通过 在 相应 
的 低 维 数 空 间 上 实施 学 习 ， 以 避免 维 数 灾 问题 。 

流 形 假设 对 于 某 些 物理 过 程 是 恰当 的 。 比 如 说 ， 考 虑 语音 生成 过 程 ， 这 可 以 看 成 是 在 一 发 
声 源 激发 一 个 发 声 系 统 滤 波 器 时 ， 一 种 滤波 的 形式 。 发 声 系 统 由 一 系列 非 一 致 的 交叉 区 域 给 
成 ， 由 声 门 开 始 ， 到 嘴唇 结束 。 当 声音 随 局 部 发 声 系 统 传递 ， 声 音信 号 的 频谱 由 发 声 系 统 的 频 
率 选择 性 形成 ; 这 个 效果 与 从 管风琴 中 观察 到 的 共鸣 现象 有 些 相 似 。 这 里 需要 注意 的 要 点 是 舍 
音信 号 空间 是 一 个 低 维 的 流 形 ， 变 化 的 参数 是 发 声 系 统 的 长 度 和 宽度 。 

2. 聚 类 假设 ， 如 下 所 述 : 

随 着 应 用 于 函数 学 习 的 样本 形成 ， 边 缘分 布 加 (X) 由 如 下 方式 定义 : 如 果 特 定 的 样本 点 位 
于 相同 的 聚 类 中 ， 那 么 它们 很 有 可 能 是 同一 类 的 。 

这 第 二 个 假设 具有 合理 性 。 这 是 因为 它 对 于 一 个 模式 分 类 问题 中 的 各 个 类 是 可 行 的 。 特 别 地 ， 
如 果 两 个 样本 输入 两 个 不 同 的 类 中 ， 我 们 观察 到 它们 位 于 同一 个 聚 类 的 可 能 性 是 相对 比较 低 的 。 


7. 11 可 微 流 形 
我 们 用 如 下 直觉 上 的 概念 来 开始 可 微 流 形 的 讨论 : 


流 形 是 一 个 抽象 的 数学 空间 。 它 其 中 每 一 个 点 都 有 一 个 局 部 的 邻接 点 ， 这 与 欧 几 里 得 空间 
相似 ， 但 从 全 局 的 角度 来 说 ， 此 空间 中 的 点 之 闻 具 有 内 在 的 结构 ， 这 上 比 欧 几 里 得 空间 要 复杂 。 


因此 ， 我 们 可 以 把 流 形 想象 成 一 个 嵌入 欧 几 里 得 空间 的 平面 的 抽象 。 

在 描述 流 形 时 ， 维 数 的 概念 十 分 重要 。 广 义 上 说 ， 如 果 一 个 点 的 局 部 邻居 在 流 形 上 是 n 维 
欧 几 里 得 空间 的 ， 我 们 可 以 说 这 是 一 个 维 流 形 ， 或 x- 流 形 。 

流 形 与 欧 几 里 得 空间 的 局 部 相似 度 被 假定 足够 接近 ， 以 便 将 微 积 分 中 的 常用 规则 用 于 流 
形 ， 使 得 流 形 学 习 更 为 简单 。 扩 展 这 个 论断 ， 用 民 表 示 实 数 集 ， 用 RR" 表示 它们 之 间 的 Carte- 
sian 点 集 。 在 流 形 学 习 中 ，R* 有 以 下 含义 ， 有 时 RR" 只 是 表示 一 个 拓扑 空间 : 有 时 RR” 用 来 表 
mh 维 向 量 空间 ， 其 上 的 操作 是 连续 的 ， 且 与 拓扑 相关 ; 有 时 RR" 简单 地 等 同 于 一 个 欧 儿 
里 得 空间 。 | 

概括 地 说 ， 拓 扑 空 间 是 一 个 几何 物体 。 为 了 更 准确 地 定义 ， 我 们 必须 引入 集合 论 ，: 

AX 表示 任何 一 个 集合 ， 用 9 表示 时 子 集 组 成 的 子 集 徐 。 则 了 是 一 个 拓扑 ， 如 果 如 下 三 点 


C7. 106) 
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RE: 
EP Acc dial 
了 中 有 限 个 元 素 的 并 仍 属于 9。 
ee 是 了 中 的 元 素 。 
如 果 了 是 如 上 定义 的 拓扑 ， 则 集合 和 (如 上 定义 中 的 ) 连同 9 组 成 了 一 一 个 拓扑 空间 ， 


了 中 的 元 素 叫 做 X 的 开 集 。 这 个 定义 的 本 质 是 指 它 可 以 使 我 们 定义 “连续 ”有 映射， 一 个 拓 
扑 空 间 之 间 的 映 映 CBR PRD f: X>Y 被 称 作 连续 的 ， 如 果 Y 中 任何 开 集 A IRR SCA) 
本 身 是 X 中 的 开 集 。 原 象 J A) X pN S 映射 到 Y PRA 的 点 xz 的 集合 。 

出 于 对 可 微 性 这 一 问题 的 特别 的 考虑 ， 令 民 "” 中 一 子 集 X 为 开 集 。 开 集 定义 为 一 个 其 中 任 
意 点 到 它 的 边 之 间 的 距离 都 大 于 0 的 集合 。 让 xEX， 记 向 量 x 第 i 个 分 量 为 x;,，f(x) 为 从 XX 
到 民 的 上 映射。 我 们 可 以 作出 如 下 的 论断 : 

对 于 一 个 非 负 的 整数 kk， 如 果 所 有 的 偏 微分 of/or EX 上 存在 并 且 连 续 Sin, A 
0 过 os 和 A) ， 则 函数 f(xX) 是 可 微 的 ， 称 为 开 集 针 上 的 C* 类 ,或 概括 地 说 了 属于 C* 的 。 

基于 此 论断 ， 我 们 可 以 说 函数 f 属于 C”【〔 即 无 穷 可 微 故 光滑 的 )， 如 果 对 于 任意 宇 0，f 
都 属于 C'。 


Ax) =y 
it NX 设置 了 
图 7.5 一 个 双 射 Í: X—>Y 


我 们 仍 没有 为 正式 定义 微分 流行 做 好 完全 的 准备 。 因 此 ， 我 们 需要 引入 一 些 其 他 概念 ， 描 

RUF: 

1. ny A 

考虑 一 个 在 集合 X MY 之 间 的 映射 /+: X>Y。 如 果 f 具有 如 图 7.5 所 示 的 属性 ， 对 于 Y 中 的 
每 个 y，X 中 都 存在 唯一 的 x， 使 得 /(zx) 二 y， 则 三 称 为 双 射 。 

X 和 YY 两 拓扑 空间 之 闻 的 双 射 /: XY 叫做 同 构 映射 如果 f 和 其 逆 映 射 /7! 都 是 连 
的 。 当 这 样 的 上 存在 时 ， 我 们 称 X 和 了 之 间 是 互相 同 胚 的 。 

从 物理 意义 上 看 ， 我 们 把 同 胚 看 成 一 个 拓扑 空间 的 连续 延伸 和 弯曲 ， 使 原 空 间 被 改变 成 了 
一 种 新 的 形态 。 比 如 说 ， 一 个 咖啡 杯 和 一 个 油 炸 圈 饼 之 间 是 同 构 的 ， 因 为 咖啡 杯 可 以 被 连续 地 
变形 为 一 个 油 炸 圈 饼 ， 反 之 亦 然 。 另 一 方面 ， 一 个 油 炸 圈 饼 绝 不 可 能 变形 为 一 球 ， 无 论 对 其 如 
何 连续 的 延伸 或 弯曲 。 

直 党 上 ,我 们 可 以 说 同 胚 映射 把 一 个 拓扑 空间 中 的 距离 接近 的 点 映射 到 另 一 个 拓扑 空间 
中 ， 使 它们 之 间 的 距离 仍然 很 接近 ， | 
2. PSP ln | 

要 定义 这 个 概念 ， RIVER X MY BR PHAR. RNS: X->Y 是 微分 同 胚 的 ， 如 
果 满 足以 下 两 个 条 件 : 
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1) f EREK. 

2) 上 和 广 :都 是 连续 可 微 的 。 

这 里 ，X 和 工 被 称 为 互相 微分 同 胚 。 如 果 了 和 广 :! 都 是 上 次 连续 可 微 的 ， 则 称 SA C- 
微 同 胚 的 。 
3. 图 表 和 图 集 

在 学 习 世 界 地 理 时 ， 我 们 发 现 使 用 图 集 和 图 表 代 替 把 世界 表示 为 一 个 整体 的 办 法 是 很 方便 
的 。 对 于 世界 的 一 个 完整 的 图 片 ， 我 们 用 图 集 ， 即 一 族 可 以 覆盖 世界 不 同 部 分 的 地 图 。 

这 种 对 世界 地 理 非 数学 方式 的 视角 导致 我 们 在 直觉 上 得 到 构造 拓扑 流 形 .的 过 程 : 

1) 选 出 一 族 重 全 的 简单 空间 ， 可 以 覆盖 住 整个 拓扑 空间 UN。 

2) 每 个 简单 空间 都 同 RR" 中 的 一 个 开 集 间 胚 。 每 个 这 样 的 同 胚 叫做 一 个 图 表 。 

3) 这 些 图 表 被 拼接 成 光滑 的 方式 。 

每 个 图 表 都 由 一 个 三 元 组 (X, Y, D 组 成 ， 其 中 X 是 人 中 的 开 集 , YER" 中 的 开 集 ， 
f: X>Y 是 一 个 同 胚 映射 。 

显然 ,一 族 覆 盖 住 整个 的 重生 的 图 表 叫 做 一 个 图 集 。 很 显然 通过 这 个 过 程 不 存在 构造 流 
形 的 唯一 方法 。 

从 数学 意义 上 说 ， 我 们 可 以 看 如 下 的 关于 图 表 和 图 集 的 定义 : 

D 用 (X O 表示 第 i 个 图 表 ， 则 图 集 是 所 有 这 些 图 表 的 交 。 

2) 图 集中 的 任意 两 个 图 表 (XA) 和 (X;,f;)， 基 于 如 图 7.6 中 的 意义 ， 必 须 是 相 容 的 : 


欧 几 里 得 空间 
R- 















eae 


R- 











a 


图 7.6 一 个 图 集 和 组 成 它 的 图 表 之 间 的 关系 示例 。[ 此 图 引用 Abraham 5 (1988) | 


© 对 于 两 个 图 表 的 公共 部 分 ， 如 图 7.6 的 阴影 部 分 所 示 ， 必 须 是 开 的 。 

阴影 的 重生 部 分 ， 记 为 Jis 必须 是 C WA EAE ES 

注意 ， 广 是 一 个 从 像 集 f;CX; 门 X;) 到 像 集 f; (Xi 门 X,) 的 映射 ， 其 中 符号 门 表示 两 个 集合 
的 乘积 或 交 。 通 过 要 求 每 个 f; 都 是 C*- 可 微 同 胚 和 的， 我 们 可 以 确定 上 C- 可 微 函 数 的 意义 。 
可 微 流 形 

最 后 ， 我 们 给 出 可 微 流 形 的 定义 : 


一 个 由 三 元 组 OXY fDi = lee TRH 维 的 C*- 可 微 流 形 U 员 是 一 个 拓扑 集 ， 其 中 每 
RY, 是 一 民 " 上 的 开 集 ， 使 得 所 有 重 属 的 映射 f;; 都 是 C*- 可 微 的 。 








流 形 
M 
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这 个 定义 是 指 对 于 每 个 n 维 数据 点 xE UK， 都 有 一 个 表 (X, Y, A, HY, xox f 
FEX 映射 到 R" 的 开 子 集 Y E. | 
为 什么 对 流 形 学 习 感 兴趣 
其 中 每 个 样本 的 维 数 都 是 nw。 这 些 样 本 可 以 表示 成 n 维 欧 几 里 得 空间 中 的 数据 点 集 。 大 多 数 无 
监督 学 习 算法 只 是 在 由 样本 x: ,x;，…，, 标 出 的 外 围 空间 上 执行 。 假 定 我 们 可 以 构造 一 个 维 数 低 
Fn 的 流 形 ， 使 得 真正 的 数据 位 于 或 在 那个 流 形 周围 。 这 样 ， 就 很 有 可 能 通过 了 人 解 流 形 以 及 其 
外 围 空间 的 几何 属性 ， 设 计 出 一 个 更 有 效 的 半 监 督学 习 算 法 。 这 里 描述 的 此 思想 不 仅仅 是 数据 
表示 的 另 一 种 方法 ， 它 通过 采样 数据 点 ， 提 供 了 一 种 流 形 上 的 逼近 问题 的 学 习 算 法 的 新 体制 
(Belkin，2003)。 但 是 ， 为 了 使 这 些 新 方法 成 为 现实 ， 我 们 必须 知道 用 来 描述 输入 空间 的 内 在 
几何 结构 的 流 形 的 特征 。 遗 憾 的 是 ， 这 些 知识 在 实际 应 用 中 很 难 获 得 。 为 了 解决 这 个 难题 ， 如 
下 面 两 节 讨 论 的 那样 ， 我 们 尝试 构造 流 形 的 模型 。 


7.12 广义 正则 化 理论 


在 第 7.3 节 中 讨论 的 Tikhonov 经 典 正 则 化 理论 ， 使 用 了 一 个 反映 类 标 样 本 所 在 的 外 围 空 间 
的 简单 罚 函 数 。 在 本 节 ， 我 们 对 此 理论 推广 ， 使 用 另 一 个 反映 无 类 标 样 本 所 在 的 输入 空间 内 在 几 
何 结构 的 罚 函 数 。 实 际 上 ， 这 个 新 理论 ， 即 广义 正则 化 理论 ， 使 用 了 基于 类 标 样 本 和 无 类 标 样 本 
的 半 监 督 函 数学 习 的 思想 。 另 外 ， 它 包括 了 在 特殊 情形 下 仪 基于 无 类 标 样本 的 半 监 督 函 数学 习 。 

成 对 出 现 的 带 类 标 样 本 记 为 (x,q)， 根 据 式 (7. 105) 所 定义 的 联合 分 布 函数 px.p (XxX,d) 所 产 
Al 。 无 类 标 样本 ，xEX， 由 边缘 分 布 画 数 p(x) 所 产生 。 此 广义 正则 化 理论 潜在 的 前 提 是 这 两 
个 分 布 之 间 存 在 一 个 等 价 关 系 。 否 则 ， 边 缘分 布 的 知识 不 可 能 被 实际 使 用 。 因 此 ， 我 们 作出 如 
下 的 假定 : 

如 果 两 个 输入 样本 点 x ,x CX BURSA RH p(X) 的 内 在 几何 结构 中 是 接近 的 ， 那 么 对 
于 在 点 x 一 xX; 和 x 二 xX; HEED BH pxip(X|d) 是 相似 的 。 

为 了 把 这 个 假定 改 成 更 为 实际 的 方式 ， 使 得 能 得 到 实用 的 办 法 ， 我 们 如 下 表述 : 

如 果 两 个 数据 点 % fox, 在 输入 空间 中 很 接近 ， 半 监督 函数 学 习 的 目标 是 找到 一 个 记 为 F(X) 的 
映射 ， 使 得 能 把 相应 的 输出 点 F(x;)，F(%) 映 射 到 位 于 同一 条 实 线 上 上 且 距离 很 近 的 可 能 性 较 大 。 

要 达到 这 个 目标 ， 我 们 需要 在 经 典 正则 化 理论 中 所 考虑 的 罚 项 外 ， 引 和 人 一 个 新 的 罚 项 。 

具体 地 说 ， 我 们 推广 半 监 督学 习 的 正则 化 代价 函数 ， 引 入 一 个 新 的 神 项 ， 如 下 所 示 : 

&(F) = sd: — F(x)? + An | F ll % +a | F ||? (7. 107) 


其 中 两 个 加 项 如 下 : 
1. 由 外 转正 则 化 参数 Aa 控制 的 罚 项 上 下， 反映 了 外 图 空 间 中 通 近 函数 下 的 复杂 度 。 特 
别 地 ， 这 个 罚 项 以 特征 空间 FER K) 复制 核 Hibert 空间 (RKHS) 表示 形式 给 出 。 
2. 由 内 在 正则 化 参数 控制 的 罚 项 Fli PRT MAS CAP ie D 内 在 几何 结构 。 
& (F) 中 的 下 标 1 代表 两 个 正则 化 参数 4。 Màir WARC. 107) 右 端 第 一 项 ， 我 们 使 用 / 
表示 带 类 标 样 本 的 数量 。 
因为 没有 内 在 罚 项 | FIt, RKHS 上 的 代价 函数 如 (有 的 最 小 点 由 如 下 的 经 典 表示 理论 定义 : 
Fi (x) = SJak(x), 4A =0 (7. 108) 


根据 此 ， 这 个 问题 可 以 规约 到 一 个 在 由 系数 a BRE EE. RN 
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可 以 推广 此 理论 以 同样 包含 内 在 罚 项 | Fil? 
为 了 此 目标 ， 我 们 提出 用 一 个 图 来 对 输入 空间 的 内 在 几何 结构 建 模 的 办 法 。 而 如 下 面 将 讨 
论 的 那样 ， 用 于 构造 此 图 的 无 类 标 样 本 是 足够 多 的 。 


7.13 ”光谱 图 理论 


考虑 这 个 训练 样本 ， 
X = Tare 
其 中 包含 NN 个 输入 数据 ， 既 有 带 类 标的 ， 也 有 无 类 标的 。 根 据 这 个 训练 样本 ，、 通 过 构造 一 个 
包含 N 个 结 点 的 带 权 无 向 图 来 处 理 。 其 中 每 个 结 点 表示 一 个 输入 样本 点 ， 图 中 的 一 系列 边 连 
接 相 邻 结 点 。 任 意 两 个 结 点 i 和 j 之 间 是 有 连接 的 ， 如 果 相 应 两 数据 点 x; x, 之 间 的 欧 几 里 
得 距离 足够 小 ， 对 于 一 些 指定 的 e， 可 满足 如 下 条 件 : 
| x; —x, |] <e (7. 109) 
这 个 邻接 准则 有 如 下 双重 吸引 人 的 特点 : 几何 直观 性 和 自然 的 对 称 性 。 然 而 ， 必 须 记 住 的 
是 ， 因 为 这 个 图 很 有 可 能 有 多重 的 连通 分 量 ， 对 常量 选择 一 个 合适 的 值 是 比较 困难 的 。 
用 w; 表示 连接 结 点 i 和 7 的 无 向 边 的 权 值 。 图 中 所 有 的 权 值 通常 都 用 实数 表示 ， 对 于 这 
些 权 值 的 选择 需要 满足 以 下 三 个 条 件 : 
L. 对 称 性 ， 即 指 对 于 所 有 Cis 7). wy 二 tw 成立; 
2. 连通 性 ， 即 指 如 果 相 应 的 结 点 i 和 j 是 连接 的 ， 则 权 值 wy 非 零 ， 否则 权 值 wi 为 零 ; 
3. 非 负 性 ， 指 对 于 所 有 Ci, j); wy 之 0 。 


Auk, NXN 的 权 值 矩阵 : 
W = {w,; } 
EAREN EER, RARER. BR W 的 行 和 列 指 代 图 中 的 结 点 ， 但 它们 的 
顺序 并 不 重要 。 此 后 ， 我 们 指 由 权 值 矩阵 W 表示 的 无 向 图 为 G。 | 
用 了 表示 一 个 NXN 的 对 角 和 矩阵 ， 其 中 它 的 对 角 线 上 元 素 都 如 下 定义 : 


N 
Ej == Xi wy (7. 110) 


这 叫做 结 点 i 的 度 。 换 句 话说 ， 结 点 i 的 度 等 于 权 值 矩阵 W 所 有 第 TPR MA. 
越 大 ， 结 点 i 就 越 重要 。 在 很 少 的 情况 下 ， 的 值 会 为 零 ， 则 结 点 KAKA. 
在 权 值 矩阵 W 和 对 角 和 矩阵 中 ， 我 们 现在 定义 图 G 的 拉 普 拉 斯 算 子 如 下 : 
L= T—W (7. 111) 
如 果 我 们 假定 不 存在 环 ， 即 对 所 有 的 i w=0, WU TREE LR i ITa 列 中 的 元 
K, RNA: 


tä» Wj =i 
bi | 对 于 邻接 点 zz 和 和] (7. 112) 
0， 否则 
因此 我 们 得 知 拉 普 拉 斯 矩阵 LL 是 对 称 矩 阵 。 
如 下 所 述 ， 图 拉 普 拉 斯 是 构造 一 个 合适 的 光滑 函数 而 处 理 内 罚 项 | 下 1 的 关键 所 在 。 
因为 拉 普 拉 斯 矩阵 荆 是 对 称 和 矩阵 ， 它 的 特征 值 是 实 的 。 有 关 特 征 分 解 的 话题 ， 包 括 计算 一 
个 对 称 和 矩阵 的 特征 值 ， 在 第 8 章 将 详细 讨论 。 在 此 ， 我 们 发 现 用 对 称 和 矩阵 的 Rayleigh 系数 去 
求 拉 普 拉 斯 矩阵 工 的 特征 值 的 变化 特征 很 适合 。 因 此 ， 用 下 表示 一 个 人 造 的 关于 输入 向 量 x 的 
向 量 值 函数 。 其 中 x 是 关于 图 G 中 的 每 一 个 结 点 赋 一 个 实数 值 。 然 后 可 以 用 如 下 的 比值 来 定义 
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HEMET LHI Rayleigh H: 
Å Rayleigh = of | (7.113) 

此 Rayleigh 商 体现 了 两 个 内 积 的 比 ， 

1. 函数 f 和 和 矩阵 Lf 的 内 积 ， 其 中 拉 普 拉 斯 矩阵 LL 作为 作用 在 函数 f 上 的 一 个 算 子 。 

2. 函数 f 同 它 本 身 的 内 积 ， 即 了 的 欧 几 里 得 范 数 的 平方 。 
应 注意 到 根据 式 (7. 113)， 式 中 的 拉 普 拉 斯 矩阵 LL 是 一 个 非 负 定 的 矩阵 。 

L 是 一 个 NXN 的 和 矩阵， 所 以 它 应 该 有 N 个 实 的 特征 值 。 对 它 的 特征 值 按 顺序 排列 如 下 : 

Ao 二 A 和 AN 

这 些 特征 值 就 叫做 拉 普 拉 斯 矩阵 工 的 特征 光谱 ， 或 关联 和 矩阵 G 的 特征 光谱 。 不 难看 出 ， 最 小 
特征 值 4。 是 0， 且 相应 的 特征 向 量 是 1， 即 其 所 有 的 NN 个 分 量 都 是 1。 第 二 小 的 特征 问 量 4 对 
于 光谱 图 理论 起 到 了 重要 的 作用 。 

BAA 的 重要 性 和 拉 普 拉 斯 矩阵 工 的 其 他 特征 值 ， 本 章 主要 关注 的 是 为 处 理 内 出 项 
| EI? 找到 一 个 合适 度量 。 我 们 看 式 (7. 113) ， 寻 找 的 度量 就 是 Rayleigh 商 的 分 子 (二 次 项 
PLE). ARH. RATIA JEW wh Be 


So CF) = f° LF (7.114) 
这 不 仅 合 理 ， 而 且 直 党 上 满足 要 求 。 向 量 值 函 数 f 就 训练 样本 XX 定义 如 下 : 
上 二 [F(x ECx ECXN) | C7. 115) 


因此 ， 在 式 (7. 114) 中 使 用 式 (7. 112) 和 式 (7. 115) ， 我 们 可 以 同样 通过 如 下 所 示 的 和 式 来 
RIK ICI Pa 


So(F) = >) >) wy Fap — FOR) (7.116) 
1 


i=l j= 


其 中 wz 是 连接 结 点 和 7 的 边 的 权 值 。 
为 了 完成 对 光滑 函数 Se (了 7) 的 描述 ， 我 们 需要 一 个 对 图 G 的 边 权 值 估 值 的 公式 。 根 据 核 方 
法 的 精 骨 ,我们 用 核 函数 来 定义 连接 结 点 i 和 j 的 边 的 权 值 was B 


wy = R(%>%;) (7.117) 
这 个 定义 对 权 值 ww 满足 对 称 性 ， 连 通 性 和 非 负 性 的 条 件 。 一 个 这 样 的 核 的 例子 是 高 斯 函数 : 
k(x; ,xi) = exp(— Ix =x (7.118) 


Hip, 是 设计 者 控制 的 参数 ， 假 定 对 所 有 的 i 都 相同 ， 即 所 有 的 核 都 在 光谱 图 中 。 
在 此 ， 对 半 监 督学 习 的 内 容 中 的 要 点 总 结 如 下 : 


通过 联合 式 (7.117) 和 式 (7. 118)， 对 光谱 图 理论 的 应 用 ,使 得 关于 半 监 督学 习 的 机 器 学 习 
称 为 核 机 器 。 此 核 机 器 的 隐藏 层 通过 产生 无 类 标 样 本 的 输入 空间 的 内 在 几何 结构 确定 。 
7.14 广义 表示 定理 

通过 已 得 到 的 式 (7. 114) 中 的 光滑 函数 ， 我 们 可 以 把 式 (7. 107) 中 的 代价 函数 重 写 成 预 其 的 形式 : 


E) = IC: — Fx + An | F lk + Safe (7.119) 

其 中 对 一 个 再 生 核 Hilbert 空间 进行 优化 〈 即 下 在 RKHS 中 )。 对 代价 函数 多 (F) 的 优化 产生 
一 个 扩张 形式 : » 

Fi (x) = Slat k(x) (7. 120) 
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其 中 既 包 括 带 炎 标 样本 又 包括 无 类 标 样 本 (Belkin 等 ，2006)。 因 此 ， 这 个 扩张 可 以 看 作 
经 典 表 示 定 理 在 半 监 督 中 的 泛 化 。 

为 了 证 明 此 定理 ， 我 们 首先 需 认 识 到 任何 再 生 核 Hilbert 空间 中 的 蚂 数 F(x) 可 以 被 分 解 成 
两 个 分 量 的 和 : 一 个 分 量 Fi OO, ER TERK PRR RCO sri), kO ,Zz2),…,k(。 zw) 张 成 的 空间 
中 ; 男 一 个 分 量 , (x)， 包 全 在 它 的 正 交 补 空间 中 。 即 可 以 写成 ; 


N 
F(x) = Fy (x) + F, (x) = SJak(x,x) +F, (x) (7.121) 


其 中 a, 是 实 系数 。 通 过 引入 第 6 PPCM BER, RRB ISSN, MRM FOO 
在 任意 数据 点 x HONG, EAE S64} OA, BF 


F(x;) =(F,k(+,x;)> = CS aik (21x) ROX) 十 (Fy »kC*,x;)> 


P (7. 122) 
= ake ,Ki) kC H EF RC 4% )) 
现在 注意 两 点 ， 
1. 在 式 (7. 122) 的 第 一 项 中 ， 我 们 有 
Ck» 4x; ) kOe yx; ) = Rk CX; » X;) 

2 在 第 二 项 中 (F, skle Xi) 7， RE, 
因此 可 以 得 到 ， 

F(x;) = S)aik (x »x;) (7. 123) 


此 式 显示 包含 正则 化 代价 函数 和 最 小 化 式 (7.119) 的 内 在 范 数 的 经 验 项 仅 依 赖 于 系数 (a) 
mR Gram OF. 

下 面 ， 我 们 注意 到 对 所 有 的 Ff, ， 这 个 正 交 分 量 仅 趋 于 增加 再 生 核 Hilbert 空间 中 函数 的 
范 数 。 换 句 话 说 ， 

| FI} = | Dyak Cox |] ,+ VF, Wa> | Sak Co |j 
其 中 最 小 下 标 K 指 再 生 核 Hilbert 空间 。 

因此 ， 为 了 使 对 代价 函数 如 (F) 最 小 化 得 以 实现 ， 我们 必须 有 FL 一 0， 这 就 证 明了 式 
(7. 120) 中 的 广义 表示 定理 。 在 此 式 中 使 用 了 最 优化 设置 的 表示 。 

此 广义 表示 理论 的 简单 形式 把 一 个 外 在 -内 在 正则 化 框架 转换 成 为 一 个 相应 的 由 有 穷 维系 
(a), 空间 所 规定 的 优化 问题 成 为 了 可 能 。 其 中 N 是 所 有 带 样 本 和 无 类 标 样本 的 数量 的 
总 和 (Belkin 等 ，2006) 。 这 样 做 ， 我 们 可 以 为 了 解决 7.15 节 所 示 的 困难 的 半 监 督学 习 问 题 而 
引入 核 方法 。 


7.15 拉 普 拉 斯 正则 化 最 小 二 乘 算法 


在 7.12 节 中 ， 我 们 介绍 了 光滑 函数 的 概念 ， 其 公式 体现 了 光谱 图 理论 下 的 拉 普 拉 斯 算 子 。 
特别 地 ， 定 义 的 光滑 函数 的 公式 是 核 的 ， 正 如 式 (7. 116) 和 式 (7. 118) 所 示 ， 其 使 得 函数 非 线性 
地 依赖 于 输入 向 量 x。 下 面 我 们 将 广义 化 该 表示 定理 ， 使 得 该 函数 适应 于 带 类 标 样 本 和 无 类 标 
样本 。 利 用 这 些 我 们 可 处 理 的 工具 ， 现 在 我 们 可 以 设 定 拉 普 拉 斯 正则 化 最 小 二 乘 算法 的 公 云 
(Belkin 等 ，2006; Sindhwani 等 ，2006) 。 新 算法 的 实用 性 体现 在 以 下 两 点 : 

L 对 该 算法 的 训练 既 使 用 带 类 标 样 本 ， 又 使 用 无 类 标 样 本 ， 因 此 ， 可 把 算法 的 实用 性 提 
升 到 比 那些 现 有 的 单独 的 监督 训练 算法 更 广 的 范围 。 
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2. 通过 核 方法 ， 算 法 可 以 对 非 线 性 可 分 离 的 模式 进行 识别 ， 因 此 ， 拓 展 了 最 小 二 乘 估计 
的 应 用 。 

基本 上 说 ，LapRLS 算法 来 源 于 最 小 化 式 (7. 119) 中 关于 函数 F(x) 的 代价 函数 。 (对 带 类 
标 样 本 和 无 类 标 样 本 ) 使 用 表示 定理 ,我 们 有 


N 
F(x) = X ak (x.x;) 


在 式 (7. 119) 中 使 用 矩阵 符号 ， 得 到 
&(a) = + (d — JKa)"(d — JKa) + Ana" Ka + ha" KLKa (7. 124) 


此 外 我 们 引入 以 下 符号 : 
d =] 乘 以 1 的 预期 相应 向 量 
=| d; sd% d; |" 
a 一 NN 乘 以 1 的 扩张 系数 向 量 
=| a yä pean] 
J=ÆNRŘA N KRAER SHARER AISA 
=diag[ 1,1,..… ,1,0,0,.,0] 
此 LXL KERK 是 Gram 矩阵，L 是 拉 普 拉 斯 图 和 矩阵。 注意 到 式 (7.124) 右 边 的 表达 式 
是 一 个 未 知 向 量 a 的 二 次 函数 ， 因 此 代价 函数 可 记 为 色 (a)。 对 此 等 式 关 于 回 量 a 微分 ， 合 并 
并 简化 项 ， 然 后 求解 最 小 点 值 a”， 得 到 | 
a” = (JK +à I+ ALK Jd (7.125) 
其 中 使 用 Gram 矩阵 K A EAT AE RAE A 7. 16. 
se ATE EMLE REE HEM (DLN), (请 注意 此 条 件 下 矩阵 本 成 为 标准 对 和 角 
阵 的 形式 )， 式 (7. 125) 中 的 公式 被 简化 到 式 (7. 74) 中 普通 正则 化 最 小 二 乘 算法 。 
表 7. 1 给 出 了 一 个 LapRLS 算法 的 总 结 ， 其 中 包含 四 个 设计 者 控制 的 参数 : 
1. 两 个 正则 化 参数 : Ay Màs 
2. 两 个 图 参数 es Mo’. Hehe 用 于 式 (7. 109) 的 邻接 矩阵 中 ，o? ATACO. 118) 中 的 核 权 值 中 。 
注意 到 这 个 算法 不 需要 计算 RLS 算法 的 权 值 向 量 。 我 们 通过 计算 与 表示 定理 相关 的 参数 
向 量 a， 而 避免 了 对 此 的 计算 。 
在 表 7. 1 中 总 结 了 一 个 半 监 督学 习 算法 的 显著 的 特征 ， 就 是 需要 知道 两 个 正则 化 参数 A 和 
A1。 正 如 我 们 以 前 指出 ， 推 广 第 7. 8 节 的 交叉 验证 理论 正 适合 对 Ma 和 进行 伯 计 。 


表 7.1 拉 普 拉 斯 正则 化 最 小 二 乘 算 法 总 结 


给 定量 
向 量 样本 (xis dih- {Xi;) 信 111， 分 别 是 带 类 标的 和 无 类 标的 。 
! 是 带 类 标 样 本 的 数量 ，N 一 ! 是 无 类 标 样 本 的 数量 。 
设计 的 参数 
< 和 co2:， ”光谱 图 参数 
aa 和 41: 正则 化 参数 ， 外 部 的 和 内 在 的 
计算 
1. 构造 一 个 有 NN 个 结 点 的 带 权 无 向 图 G， 使 用 
© 式 (7. 109) 对 图 的 邻接 点 进行 辨认 。 
© 式 (7. 117) 和 式 (7. 118) 计 算 边 权 值 。 
2. ARAM ka, )， 并 使 用 训练 样本 计算 Gram 矩阵 K= (k(x; xj) }Nj=1 
3. 使 用 式 (7. 110) 和 式 (7. DBA 必 的 拉 尊 拉 斯 矩阵 工 。 
4. 使 用 式 (7. 125) 计 算 最 优 系数 问 量 a* 。 
5. 使 用 式 (7. 120) 的 表示 理论 计算 优化 通 近 函数 Fx O. 
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7.16 用 半 监 督学 习 对 模式 分 类 的 实验 


为 了 说 明 拉 普 拉 斯 RLS 算法 的 模式 分 类 能 力 ， 我 们 基于 抽取 自 图 1.8 的 双 月 图 的 合成 数 
据 来 进行 一 个 小 的 实验 。 特 别 地 ， 我 们 把 实验 中 的 两 个 参数 设置 为 固定 不 变 的 : 

两 个 月 亮 之 间 的 垂直 分 离 ，d 一 一 1。 

外 围 正则 化 参数 ，As 二 0. 001, 


实验 中 唯一 变化 的 参数 是 内 正则 化 参数 4A。 

4a 正好 被 设置 为 零 时 ， 拉 普 拉 斯 RLS 算法 简化 成 传统 的 RLS 算法 。 其 中 带 类 标 数 据 是 
提供 学 习 信 息 的 唯一 来 源 。 从 实验 的 角度 来 看 ， 我 们 关注 的 是 在 半 监 督学 习 的 过 程 中 ， 加 和 无 
类 标 信 息 是 如 何 通 过 变化 的 参数 1 影响 由 拉 普 拉 斯 RLS 算法 构造 的 决策 边界 的 。 在 实验 的 第 
BaP, Ar 被 赋予 了 一 个 足够 大 的 值 ， 以 使 得 无 类 标 样本 对 算法 产生 完全 的 影响 。 

对 于 两 部 分 实验 ， 每 个 类 中 只 提供 了 两 个 类 标 数 据点 ， 一 个 类 代表 图 1. 8 中 上 方 的 月 亮 ， 
男 一 个 类 代表 底部 的 月 亮 。 训 练 样本 的 总 和 ， 包 括 类 标 样 本 和 无 类 标 样本 有 N=1000 7; W 
试 样本 的 数量 同样 有 1000 个 。 

(a) 内 在 正则 化 参数 ，41 一 0.0001。 对 于 这 个 设置 ， 图 7.7 给 出 了 由 拉 普 拉 斯 RLS 算 法 构造 
RRR. AEX A 赋 了 一 个 很 小 的 值 ， 这 已 显著 地 改变 了 由 RSA (a= 所 确定 的 
决策 边界 。 我 们 从 图 2. 2 和 图 2. 3 中 回忆 到 RLS 算法 的 决策 边界 是 一 条 具有 正 坡度 的 直线 。 


= 





图 7.7 拉 普 拉 斯 RLS 算法 对 图 1, 8 中 的 双 月 分 类 ， 距 离 为 4 二 一 1， 每 个 类 中 的 两 
个 带 类 标 数 据点 用 符号 信和 〇 表示 。 内 正则 化 参数 A =0. 0001 

从 效果 上 看 ，1 000 个 测试 数据 中 总 共有 107 个 错误 分 类 ; 即 分 类 错误 率 是 10.7%. 

(b) 内 正则 化 参数 ， 和 一 0.1。 在 实验 的 第 二 部 分 中 ， 内 正则 化 参数 Mr 被 赋值 为 0.1， 因 
此 可 以 使 得 拉 普 拉 斯 RLS 算法 可 以 完全 地 利用 无 类 标 样本 的 内 在 信息 内 容 。 类 标 信息 点 的 位 
置 与 实验 的 第 一 部 分 中 的 完全 相同 。 

为 了 实现 拉 普 拉 斯 RLS 算法 ， 我 们 在 式 (7. 118) PRET —F 20° =3 的 RBF KR. ATH 
造 本 身 ， 我 们 使 用 了 20- 最 近邻 图 。 实 际 上 ， 为 了 此 目的 ，RBEF 网 络 有 一 个 含 20 个 计算 结 点 
的 隐藏 层 。 

第 二 部 分 实验 的 结果 得 到 了 图 7. 8 所 示 的 网 络 配置 。 与 图 7.7 相 比 ， 我 们 看 到 在 参数 u= 
0.1 MA,;=0.0001 情况 下 ， 由 拉 普 拉 斯 RLS 算法 构造 的 决策 边界 有 显著 的 不 同 。 特 别 地 ， 两 
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个 类 ( 即 上 方 的 月 党 和 底部 的 月 亮 现在 被 没有 分 类 误差 地 分 离 了 。 这 个 结果 在 设置 d= 一 1 
时 最 为 明显 ， 两 个 类 的 样本 线性 地 分 离 了 ， 并 且 拉 普 拉 斯 RLS 算法 能 够 在 每 个 类 仅 用 两 个 带 
类 标 样本 的 情况 下 成 功 地 分 离 它 们 。 拉 普 拉 斯 RLS 算法 的 这 个 显著 的 性 能 妇 因 于 能 够 充分 地 
利用 两 个 类 的 无 类 标 数据 中 含有 的 信息 。 


ta 
fo 





x; 


图 7.8 对 图 1.8 中 的 双 月 图 用 拉 普 拉 斯 RLS 分 类 ， 距 高 为 4 二 一 1， 每 个 类 中 的 两 
个 带 类 标 数 据点 用 符号 信和 中 表示。 内 正则 化 参数 a =0.1 


两 个 部 分 的 实验 清楚 地 证 明了 正则 化 外 部 形式 和 内 部 形式 的 折 中 ， 其 中 由 拉 普 拉 斯 RLS 
算法 所 示 的 半 监 督学 习 过 程 能 够 借助 相对 很 少 的 带 类 标 样本 ， 从 无 类 标 样 本 完成 泛 化 。 
案例 研究 : 使 用 USPS 数据 进行 模式 分 类 

图 7.9 指出 了 RLS 和 拉 普 拉 斯 RLS 算法 对 于 实际 图 像 分 类 问题 ， 使 用 美国 邮政 服务 
(USPS) 的 数据 集 的 学 习 曲 线 。 这 些 数据 集 包 合 10 个 手写 数字 类 的 2007 个 图 像样 本 ， 其 中 每 


—x— RLS 
一 但 一 拉 普 拉 斯 RLS 





40 60 80 100 120 140 
带 类 标 数据 点 数 


图 7.9 对 USPS 数据 使 用 (a) RLS 算法 和 b 拉 普 拉 斯 RLS 算法 (此 图 的 复制 得 
到 Vikas Sindhwani 博士 的 允许 ) 
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个 图 像样 本 用 一 个 256 维 的 像素 矢量 表示 。 对 于 此 十 个 类 中 的 每 一 个 类 ,使 用 RLS 和 拉 普 拉 
斯 RLS 算法 分 别 训练 一 个 两 类 分 类 器 。 多 类 分 类 通过 选取 最 大 输出 的 类 来 实行 ， 即 用 一 类 对 
剩余 的 多 类 的 模式 分 类 。 图 7. 9 描绘 了 平均 分 类 误差 率 和 两 个 算法 作为 由 训练 集中 2007 个 样 
本 所 提供 的 带 类 标 样本 的 函数 的 标准 差 。 图 7. 9 中 的 每 一 个 点 都 由 随机 选择 十 个 类 标 而 获得 。 
我 们 使 用 了 一 个 高 斯 RBF 核 。 对 于 式 (7. 118) 中 的 指数 ， 我 们 把 2o 设置 为 与 随机 从 训练 集中 
挑 出 的 样本 之 间 的 欧 几 里 得 距离 相同 。 对 于 拉 普 拉 斯 RLS， 我 们 使 用 10 个 近邻 图 来 构造 拉 普 
拉 斯 ; 使 用 的 正则 化 参数 为 X44 二 10“ 和 ==0.01。 对 于 RLS， 在 许多 值 上 调试 ， 使 得 其 得 到 
一 个 如 图 7. 9 所 示 的 最 优 学 习 曲 线 。 图 7.9 中 所 示 的 结果 进一步 证 明了 ， 与 RLS 算法 相 比 ， 
使 用 无 类 标 数 据 显著 提升 了 拉 普 拉 斯 RLS 的 性 能 。 


7. 17 小 结 和 讨论 


正则 化 理论 是 所 有 学 习 理 论 的 核心 。 在 本 章 ， 我 们 对 正则 化 理论 进行 了 详细 的 介绍 。 从 
Tikhonov 的 使 用 带 类 标 样本 用 于 监督 学 习 的 经 典 正则 化 理论 开始 ， 到 应 用 于 使 用 带 类 标 样本 
和 无 类 标 样 本 的 半 监 督学 习 的 广义 正则 化 理论 结束 。 

Tikhonov 的 正则 化 理论 

在 其 最 基本 的 形式 中 ， 用 于 Tikhonov 的 正则 化 理论 的 泛 蚂 由 两 项 组 成 : 一 项 是 经 验 代 价 
函数 ， 用 带 类 标 训 练 样本 的 方式 定义 ; 另 一 项 是 正则 化 项 ， 用 应 用 于 逼近 函数 的 微分 算 子 定 
义 。 此 微分 算 子 作为 一 个 光滑 约束 ， 作 用 在 由 最 小 化 代价 函数 而 得 到 的 解 上 。 该 代价 函数 与 通 
近 函 数 的 未 知 参数 GUA) 向 量 有 关 。 这 个 最 优 解 的 重点 是 Green RM, HEH — AI i ew 
数 网 络 的 核 。 然 而 ， 要 记 住 的 是 ， 对 网 络 复杂 性 的 约 减 成 为 决定 光滑 正则 化 算 子 的 关键 因素 。 

无 论 选 择 何 种 正则 算 子 ， 为 了 使 得 Tikhonov 的 正则 化 理论 的 优点 全 被 所 设计 的 正则 化 网 
络 所 使 用 ， 我 们 需要 一 个 估计 正则 化 参数 的 原则 性 的 方法 。7. 8 节 中 描述 的 广义 交叉 验证 过 程 
符合 这 个 特定 的 要 求 。 

半 监 督学 习 

随 着 对 监督 学 习 的 正则 化 理论 的 完整 学 习 ， 我 们 转 而 关注 半 监 督学 习 的 正则 化 。 这 是 使 用 
带 类 标 数据 和 无 类 标 数据 来 实现 的 。 代 价 函 数 现 在 由 三 项 组 成 : 

© 经 验 代 价 函 数 ， 由 带 类 标 实 例 定义 。 

。 SEM LA, ERR TIERRA. Biase AARNE. 

。 内 正则 化 项 ， 其 反映 了 用 来 产生 无 类 标 样本 的 输入 空间 的 内 在 几何 结构 。 

相应 地 ， 有 两 个 正则 化 产生 ,一 个 是 在 外 正则 化 项 中 ， 田 一 个 在 内 正则 化 项 中 ， 

相应 地 ， 有 两 个 正则 化 参数 ， 一 个 用 于 外 项 ， 另 一 个 用 于 内 项 。 

作为 广义 正则 化 理论 的 一 个 重要 实例 ， 我 们 使 用 带 类 标 实例 和 无 类 标 实例 来 考虑 最 小 二 乘 
估计 问题 。 通 过 使 用 一 个 包含 拉 普 拉 斯 算 子 和 表示 理论 泛 化 形式 的 应 用 的 核 光滑 函数 ， 我 们 可 
以 推出 一 个 半 监 督学 习 的 正则 化 最 小 二 敢 估 计算 法 ; 这 个 算法 ， 称 为 拉 首 拉 斯 正则 化 最 小 二 乘 
算法 ， 有 两 个 重要 的 使 用 特性 : 

1. 对 于 训练 ， 算 法 可 以 处 理 带 类 标 样 本 和 无 类 标 样本 。 故 而 该 算法 拓宽 了 其 对 更 为 困难 
的 模式 识别 问题 的 应 用 。 

2. 通过 在 算法 公式 中 很 基本 的 光滑 函数 的 核 化 用 最 小 二 乘 估 计 ， 对 非 线 性 可 分 模式 的 识 
别 变 得 更 为 可 行 。 

这 个 算法 的 实用 性 可 由 两 个 深刻 的 计算 机 实验 证 明 ， 一 个 包括 合成 数据 ， 男 一 个 包括 实际 
数据 。 
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在 Belkin 等 (2006) 中 ， 通 过 拉 普 拉 斯 支持 向 量 机 (LapSVM) 推出 了 一 个 半 监 督学 习 算 
法 。 此 算法 能 够 成 功 地 测试 一 些 实际 的 数据 集 。 然 而 ， 算 法 需要 求 一 个 稠密 Gram PHM, 
因此 会 使 得 计算 复杂 度 达 到 NR, HPN 是 完全 的 训练 样本 数量 (包括 带 类 标 样本 和 无 类 标 
样本 ); 男 外 ， 就 像 标准 的 支持 问 量 机 一 样 ， 我 们 仍然 要 解 一 个 二 次 规划 问题 ， 其 复杂 度 同 样 
达到 了 N? 阶 。LapRLS 算法 的 复杂 度 上 要 比 LapSVM 简单 ， 因 为 在 其 公式 中 没有 二 次 规划 问 
题 。 更 为 重要 的 是 ， 实 验 结 果 似 乎 显示 了 这 两 种 半 监 督 机 器 学 习 的 性 能 很 相近 。 因 此 ， 从 实用 
的 角度 来 看 ，LapRLS 算法 对 于 求解 半 监 督学 习 问 题 是 一 个 更 好 的 选择 。 

然而 ，LapRLS 算 法 的 计算 复杂 度 同样 是 N 阶 ， 这 是 因为 在 代价 泛 蚂 中 包括 了 内 项 

个 额外 的 高 的 计算 复杂 度 使 得 LapRLS 算法 很 难 应 用 于 包含 大 规模 数据 集 的 实际 问题 。 a 
发 可 用 于 大 规模 数据 的 半 监 督学 习 算 法 在 当前 仍然 是 一 个 热门 的 话题 。 


注释 和 参考 文献 


L 从 诸如 一 个 病态 求 递 问题 的 实例 中 学 习 。 通 过 实例 的 机 器 学 习 会 违反 一 个 或 多 个 关于 良 态 问题 的 Had- 
amard 条 件 ， 这 使 我 们 把 学 习 过 程 看 作 一 个 病态 的 求 道 问题 。 然 而， 从 严格 的 数学 角度 看 ， 学 习 理 论 和 病 
态 求 逆 问 题 理 论 之 间 的 联系 并 非 直接 的 。 这 两 个 理论 的 数学 基础 是 不 同 的 ; 通常 ， 学 习 理 论 自 然 上 看 是 内 
在 不 确定 的 〈 不 管 我 们 是 否 显 式 地 把 概率 理论 加 和 人 其 公式 中 )， 然 而 另 一 方面 ， 闭 问题 理论 可 以 被 看 作 是 一 
个 几乎 确定 的 问题 。DeVito 等 (2005〉 提 出 了 一 个 从 诸如 一 个 病态 求 逆 问 题 的 实例 中 学 习 的 直观 阐述 。 

2. 等 式 (7. 46) 的 验证 。 在 基本 项 中 ， 我 们 可 以 通过 单位 高 斯 消 数 来 验证 等 式 (7. 46) 的 有 效 性 ; 


G(x) = exp(— a2’) (A) 
其 是 一 维 的 ,中 一 1/2r。 基 本 上 ， 我 们 所 需要 的 是 : 
D S 25G(2) = 8x) (B) 





其 中 elr) BAUD FE r=0 点 的 Dirac ee pe ae 

要 验证 等 式 (B) ， 最 方便 的 方法 就 是 研究 傅 里 叶 恋 换 (Kammler，2000) 的 基本 属性 。 特 别 地 ， 关 于 微分 属 
性 有 ; 

GUNE rA BATETARA., COE G(zZ) 以 i2rs 的 博 里 叶 变 换 ， 其 中 了 是 空间 频率 ，i 是 一 1 的 
方 根 。 

由 傅 里 叶 理 论 ， 我 们 同样 可 以 知道 在 数学 项 中 ， 单 位 高 斯 函数 是 其 自身 的 傅 里 时 变 换 。 特 别 地 ， 对 于 等 式 
(A) 中 的 Gx), RNA: 





G(s) = exp(— ms”) (C) 
因此 ， 通 过 等 式 (B) 左 边 项 的 无 穷 级 数 求 和 的 传 里 叶 变 换 ， 可 得 (简化 后 的 项 ); 
3 1)? oe lirs)” exp(— ns’) = exp(— xs D gee (D) 


这 个 等 式 (D) 右 端的 新 的 无 穷 级 数 POT exp(xs’ ) 的 一 TE 因此 ， 等 式 (D) 的 

右 端 项 实际 上 等 于 Dirac delta BR SCz) 的 单位 道 变换 。 则 等 式 (B) 的 验证 就 可 以 确立 。 

通过 等 式 (B) 的 一 维 情 况 ， 我 们 可 以 通过 考虑 二 维 以 及 多 维 情 况 ， 引 和 归纳 法 而 继续 验证 等 式 (7. 46) 。 

正则 化 精确 插值 。 在 Yee 和 Haykin(2001) 中 ， 描 述 了 一 个 设计 RBF 网 络 的 方法 ， 其 包括 两 个 严密 的 

理论 : 

。 在 7.3 节 中 描述 的 精确 插值 的 正则 化 理论 。 

。 在 第 5 章 中 描述 的 核 园 妇 估计 理论 。 

由 后 一 个 理论 ， 我 们 关注 Nadaraya- Watson 回归 估计 算 子 。 这 个 方法 提供 了 一 个 可 简单 编码 且 具 有 遍 效 性 

能 的 解决 回归 和 模式 识别 问题 的 基本 策略 。 然 而 ， 此 方法 对 计算 量 的 要 求 较 高 ， 特 别 是 训练 集 的 规模 较 

大 时 。 

4. 广义 交叉 验证 。 为 了 从 通常 的 交叉 验证 得 到 广义 交叉 验证 ,我们 先 考虑 在 Wahba(1990) 中 的 一 个 岭 回归 问 
题 (ridge regression problem) : 


oe 


y= Xa+e CA) 
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其 中 和 是 一 个 NXN 阶 的 输入 和 矩阵， 噪声 向 量 es 具有 零 均 值 ， 且 其 协 方差 矩阵 等 于 只 1I。 对 和 进行 奇异 值 
分 解 有 


X = UDVT 
AF U Al V BIE AHS, DENMARK. $ 

y= Ury 

B= Va 
和 

e= U's (B) 
可 以 用 U 和 VY 将 式 (A) 转 变 为 

y= DB+e 


选择 对 角 和 矩阵 DC 注意 不 要 与 微分 算 子 混 清 ) 使 其 奇异 值 成 对 出 现 。 这 样 就 有 一 个 正 交 和 矩阵 W, E ww 
ERREF, BI 


Qo Be Ae Ua 
aN- do t QAN- 
A = WDW’ = |an-2 ana ° aN 
ay az ** @ 
它 的 对 角 线 元 素 为 常数 。 令 
z= Wy 
Y= WB 
H. 
E = We 
WY sh (BARA 
z= AY+E (C) 
对 角 和 矩阵 DRAE “RKR” (maximally uncoupled) ff, MERER A 具有 “最 大 耦合 ” (maximally 
coupled) fT. 


按照 上 述 变 换 ， 我 们 可 以 陈述 广义 交叉 验证 等 价 于 将 式 (A) 所 示 的 岭 回 归 问 题 变 换 为 式 (C) 所 示 的 最 大 厅 合 
形式 ， 然 后 对 z 进行 一 般 的 交叉 验证 ， 最 后 将 其 变换 为 原 坐 标 系 统 CWahba, 1990). 

5. 维基 百科 验证 。 对 于 一 个 咖啡 杯 变形 为 一 个 汽车 轮胎 的 连续 过 程 或 反 过 程 ， 可 访问 维基 百科 网 页 ， 并 搜索 
“ 同 构 ”。 


习题 


Green 函数 


rp = (E) (5) 
对 于 某 个 > RKrER, 
可 以 验证 使 用 此 函数 作为 一 个 平移 和 旋转 的 变形 Green AR. 
7.2 ”高 斯 函数 是 仅 有 的 可 因 式 分 解 的 径 向 基 函 数 。 利 用 高 斯 函数 的 这 个 性 质证 明定 义 为 多 元 高 斯 分 布 的 
Green K% G(x,t) 可 分 解 成 : 


Gx,t) = [|Get 
i=] 


其 中 z: 和 z; dim X1 维 向 量 x 和 t 的 第 i 个 分 量 。 

7.3 在 第 5 章 中 ,我 们 认为 三 种 径 向 基 函 数 : 高 斯 函数 、 逆 超 二 次 函数 和 超 二 次 函数 ， 都 满足 Micchelli 定 
理 。 但是，Green RAX RES AARAA. EA Green 函数 类 不 包含 超 二 次 函数 。 

正则 化 网 络 

7.4 Z RBA R: 
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7.5 


7.6 


7.7 


7.8 


mi 


N 2 
EF) = D| a- Dwed | +a pF | 
i=] 


它 用 到 逼近 函数 
F* (x) = >) wG|}x—t; ||) 
利用 Fréchet 微分 ， 证 明 当 o 
(G'G+AG, ) Ñ = G'd 
时 ， 代 价 泛 函 8(F* ) 最 小 ， 其 中 NX mm, ER Gm Xm 维 矩 阵 Gu m X1 HRUE NX1 Éi d, 


分 别 由 式 (7.53)、 式 (7. 56)、 式 (7. 54) 及 式 (7.27) 定义 。 
考虑 一 个 定义 如 下 的 正则 化 项 : 


ha | DF(x) || ?dx = DAR | DAF (x) || 2dx 
k=0 i 


其 中 
k 12! 
线性 微分 算 子 DD 由 梯度 算 子 V 和 拉 普 拉 斯 算 子 y 定义 如 下 : 
D* 一 《多 
且 
De 一 viv’)! 
证 明 : 





DF(x) = aay ar yx) 


在 7.3 节 中 ， 我 们 由 式 (7.46) 的 关系 导出 了 关于 F, CO tsk (7.47), 在 这 个 习题 中 我 们 希望 从 由 式 
(7. 46) 开 始 利用 多 维 傅 里 叶 变 换 导 出 式 (7.47)。 利 用 Green 函数 G(x) 的 多 维 仁 里 叶 变 换 的 定义 


G(s) = fe G(x) exp(— is’x) dx 


TREF, HP i 二 JY —1, s 是 m 维 的 变换 变量 。 关 于 傅 里 叶 变 换 的 性 质 可 以 参考 相关 内 容 。 
考虑 式 (7,78) 所 描述 的 非 线 性 回归 问题 。 令 aa 表示 和 矩阵 〈(G 十 4D” 的 第 证 个 元 素 。 那 么 ， 由 式 (7. 39) 
出 发 ,证明 回归 函数 Fa 的 估计 可 以 表示 为 


F(x) = SD) px x ds 
其 中 d, 是 对 应 于 模型 输入 的 输出 ， 且 
J (xX, Xx) = SGi | x— x; | Vax » k= 1,2, , N 


Ext GC [+l] 44 Green AR. 

He PKEDRBMARIG RMAF (Schumaker，1981) 。 样 条 方法 的 基本 思想 如 下 : 将 一 个 被 逼近 区 
域 用 节点 分 为 有 限 个 子 区 域 ， 节点 可 以 是 固定 的 ， 这 样 通 近 器 就 是 线性 参数 化 的 ; 节点 也 可 以 是 可 变 
的 ， 这 样 允 近 器 就 是 非 线 性 参数 化 的 。 在 这 两 种 情况 下 ， 在 每 一 个 逼近 区 域 中 使 用 一 个 阶 数 最 高 为 n 的 
多 项 式 ， 且 要 求 整个 函数 必须 是 ”一 1 次 可 微 的 。 多 项 式样 条 是 数 是 相对 光滑 函数 ， 容 易 在 计算 机 上 存 
储 、 操 作 及 计算 。 

在 实际 使 用 的 样 条 函数 中 ， 三 次 样 条 函数 可 能 是 应 用 最 广泛 的 。 一 个 一 维 输入 的 三 次 样 条 天 数 的 代价 泛 
RENAT: 


EP = 4a — son? + a a |e 


其 中 1 在 样 条 函数 中 表示 光滑 性 参数 。 
(a) 验证 这 个 问题 解 A (zx) 的 如 下 性 质 ， 
(1) 两 个 相 续 的 zx 节点 值 之 间 f(z) 是 一 个 三 次 多 项 式 。 
(2) f(z) 及 前 两 阶 导数 都 是 连续 的 ， 除 其 二 阶 导 数值 在 边界 点 为 零 外 。 
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O 因为 名 (由 有 唯一 最 小 值 ， 所 以 我 们 必须 有 : 
ECS, + ag) = ECf,) 
其 中 g 是 与 f; 一 类 的 二 次 可 微 函 数 ，x 为 任意 实 值 常数 。 这 意味 着 名 (fi 十 ag) 作 为 a 的 函数 在 a 二 0 
局 部 最 小 。 因 此 ， 证 明 : 


TN d f, (x) d glr) ] N 
J da’ )( TEL | dz = 7 Qld fies 


上 式 是 关于 三 次 样 条 问题 的 欧 拉 拉 格 朗 日 方程 。 
起 (7.75) 定 义 了 最 小 二 乘 方法 的 Gram 矩阵 或 核 矩阵 K. WEER K 是 非 负 定 的 。 


正则 化 最 小 二 来 估计 


7. 10 
7.41 


由 式 (7. 57) 推 出 用 于 正则 化 最 小 二 乘 估 计 的 式 (7. 65), 
证 明 等 式 (7. 70)， 其 中 包 插 数据 窍 阵 X 和 预期 响应 何 量 d. 


半 监 督学 习 


7. 12 


从 带 类 标 样 本 和 无 类 标 样 本 中 学 习 是 一 个 可 逆 的 问题 。 证 明 此 论断 的 有 效 性 。 


光谱 图 理论 


7. 13 


在 7.13 节 中 ,我 们 作出 了 如 下 论断 : 拉 普 拉 斯 矩阵 工 的 最 小 特征 值 是 零 。 使 用 式 (7. 113) 中 的 Rayleigh 
系数 来 证 明 此 论断 。 


广义 表示 定理 


7.14 


ER. 122) 中 的 最 后 一 ee ae eee 
本 一 Sica 
i=] i=] 


证 明 此 性 质 。 

式 (7. 120) 中 用 于 带 类 标 和 无 类 标 样本 的 表示 定理 和 式 (6. 83) 中 仅 用 于 带 类 标 样 本 的 表示 定理 具有 相同 
的 数学 形式 。 解 释 用 于 半 监 督学 习 的 表示 定理 如 何 包 含 了 用 于 监督 学 习 的 表示 定理 ， 且 后 者 是 前 者 的 
一 个 特例 。 


FP EM MR DORE 


7.16 (a) 推出 式 (7.124) 中 的 代价 泛 函 。 然 后 使 用 些 泛 函 去 推导 式 (7. 125) 中 的 最 优 氮 4 ”。 
(b) 详细 解释 此 最 小 点 如 何 包含 用 于 带 类 标 样本 的 式 (7. 74) 的 最 小 点 。 且 后 者 是 前 者 的 一 个 特例 。 

7.17 ”比较 拉 普 拉 斯 正则 化 最 小 二 乘 算法 的 计算 复杂 度 和 仅 使 用 带 类 标 样 本 的 正则 化 最 小 二 乘 算法 的 计算 复 
ARNE o 

7.18 在 求解 最 小 二 乘 方法 时 ， 我 们 可 以 选择 使 用 常规 等 式 ， 或 是 用 ?7.6 节 中 讨论 的 表示 定理 。 然 而 ， 在 解 
关于 此 方法 的 半 监 督学 习 的 版 本 时 ， 表 示 定 理 是 正确 的 选择 。 解 释 此 论断 的 合理 性。 

7.19 ”实现 拉 普 拉 斯 RLS 算法 需要 使 用 一 个 RBF 网 络 。 讨 论 无 类 标 样本 和 带 类 标 样本 在 设计 此 网 络 的 隐藏 层 
和 输出 层 时 的 独特 作用 。 

计算 机 实验 

7.20 带 类 标 数据 点 的 集合 可 以 看 成 拉 普 拉 斯 RLS 算法 的 初始 化 条 件 。 像 这 样 ， 对 于 一 个 给 定 的 无 类 标 训练 


样本 ， 我 们 预期 由 算法 构造 的 决策 边界 依赖 于 带 类 标 数 据点 的 位 置 。 在 此 实验 中 ， 我们 使 用 从 图 1.8 

中 的 双 月 构 造 中 抽取 的 合成 数据 研究 此 相关 性 。 

(a) 每 个 类 一 个 带 类 标 数据 点 。 用 与 过 去 相同 的 条 件 ， 重 复 7. 16 节 中 的 计算 机 实验 ， 但 此 次 实验 探求 
决策 边界 是 如 何 被 两 个 带 类 标 数据 点 的 位 置 所 影响 。 其 中 这 两 个 数据 点 分 别 属于 两 个 类 。 

(bh) 每 个 类 两 个 带 类 标 数 据点 。 用 于 (a〉 相 同 的 设置 ， 每 个 类 中 用 两 个 带 类 标 数 据点 ， 重 复 该 实验 。 

评价 你 此 次 实验 的 结果 。 
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本 章 组 织 

本 章 的 目的 是 描述 如 何 使 用 非 监督 学 习 来 实现 主 分 量 分 析 。 本 章 组 织 如 下 : 

8. 1 节 给 出 简介 ， 强 调 了 非 监 督学 习 的 本 章 。 

8. 2 节 描 述 自 组 织 的 四 个 原则 : 自 增 强 、 竞 争 、 协 作 和 结构 化 信息 。 这 些 原则 在 学 习 理 解 
神经 网 络 中 特别 重要 。 在 视觉 系 统 中 ， 这 些 自 组 织 特征 原则 的 作用 在 8.3 节 中 讨论 。 

8.4 节 通过 使 用 扰动 理论 给 出 主 分 量 分 析 的 数学 背景 。 

接 下 来 的 两 节 解 决 两 个 基于 Hebb 的 在 线 学 习 算 法 ，8.5 节 关 注 最 大 化 特征 滤波 器 《最 强 
的 主 分 量 的 提取 ) 的 Oja 规则 ，8.6 节 关 注 Oja 规则 的 泛 化 。8.7 市 中 ， 把 泛 化 规则 应 用 于 图 
像 压缩 。 

8.8 节 讨 论 核 PCA 算法 ， 使 得 提取 输入 信号 的 高 阶 统 计量 成 为 可 能 。 高 阶 统计 量 包含 8.9 节 中 
讨论 的 自然 图 像 的 内 在 属性 。 为 了 能 够 以 较 好 的 计算 复杂 度 处 理 自然 图 像 的 模型 ，8. 10 节 中 描述 通 
过 广义 Hebb 算法 对 核 PCA 算法 自 适应 的 修正 。8. 10 节 给 出 一 个 对 多 块 图 像 去 噪 的 实例 学 习 。 

8. 11 节 是 本 章 的 总 结 和 讨论 。 


8.1 引言 


神经 网 络 的 一 个 重要 性 质 就 是 它们 从 环境 中 学 习 的 能 力 。 通 过 训练 ， 从 统计 的 意义 上 来 提 
升 性 能 。 除 了 在 第 7 章 中 讨论 的 半 监 督学 习 之 外 ， 前 面 的 章节 都 关注 监督 学 习 算 法 。 在 监督 学 
习 中 ， 训 练 样本 包含 一 组 有 输入 输出 的 样本 。 在 本 章 和 下 面 三 章 中 ， 我们 采取 一 个 新 的 方 回 : 
我 们 学 习 非 监督 学 习 算 法 。 

在 无 监督 学 习 中 ， 我 们 的 目的 是 使 用 无 类 标的 样本 ， 发 现 输入 数据 中 的 显著 模式 或 特征 。 
也 就 是 说 ， 神 经 网 络 依照 如 下 规则 : 

从 实例 中 学 习 且 不 带 教师 。 

无 监督 学 习 可 以 从 两 个 不 同 的 方面 考虑 : 

Ci) 自 组 织 学 习 ， 其 从 神经 生物 的 角度 考虑 。 特 别 地 ， 半 监督 学 习 算 法 伴随 着 一 系列 局 
部 行为 规则 ， 要 求 使 用 这 些 规 则 计算 带 有 预期 性 质 的 输入 输出 映射 。 这 里 的 局 部 是 指 对 于 神经 
网 络 中 每 个 神经 元 突 触 权 值 的 调整 受到 神经 元 局 部 邻居 的 限制 。 在 此 环境 下 ， 用 于 自 组 织 学 习 
的 神经 网 络 模型 趋 于 神经 生物 学 结构 ， 使 得 网 络 组 织 与 人 脑 相 似 。 

(ji) 统计 机 器 学 习 理 论 ， 这 是 传统 机 器 学 习 的 方法 。 在 神经 网 络 中 强调 的 局 部 学 习 的 概 
念 在 机 器 学 习 中 起 到 次 要 的 作用 。 相 反 ， 在 统计 机 器 学 习 中 ， 更 强调 数学 工具 。 

在 本 章 中 ， 我 们 从 这 两 方面 学 习 主 分 量 分 析 (PCA) 。:PCA 是 可 以 广泛 用 于 统计 模式 识别 
和 信和 号 处 理 中 维 数 约 减 的 标准 工具 。 


8.2 自 组 织 原则 
原则 1 自 增强 
自 组 织 第 一 个 原则 就 是 : 
神经 元 突 触 权 值 的 修正 随 着 Hebb 条 件 学 习 自 增强 ， 这 使 得 突 触 可 塑性 有 了 可 能 。 
在 单个 神经 元 中 ， 自 增强 的 过 程 ， 受 到 以 下 约束 : 对 神经 元 突 触 权 值 的 修正 基于 在 局 部 区 域 可 
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获得 前 突 触 和 后 突 触 信号 。 特 别 地 ， 自 增强 和 局 部 的 要 求 通过 强 突 触 导致 前 突 触 和 后 突 触 信号 的 发 
生 规 定 了 一 个 反馈 机 制 。 相 应 地 ， 该 突 触 的 强度 通过 此 也 增强 了 。 此 机 制 是 Hebb 学 习 的 本 质 。 

基于 Hebb 假定 的 学 习 是 所 有 学 习 规 则 中 最 老 的 和 著名 的 。 它 是 为 了 纪念 神经 生物 学 家 
Hebb (1949), Hebb 的 书 《 自 组 织 行为 》(1949) 有 如 下 的 描述 (Cp. 62): | 


当 一 个 神经 元 细胞 A 足够 近 地 反 复 且 持续 地 激活 细胞 B， 一 些 增长 过 程 或 新 陈 代 谢 会 发 
生 ， 使 得 A 作为 其 中 一 激活 也 的 细胞 ， 其 有 效 性 增强 。 


Hebb 假定 此 在 相关 学 习 的 基础 上 《在 细胞 层次 上 ) 的 变化 ,会 导致 对 在 空间 上 分 布 的 相 
似 的 神经 细胞 的 激活 模式 持续 地 修正 。 

这 个 关于 Hebb 假定 的 学 习 的 论断 是 基于 一 个 神经 生物 学 背景 下 的 。 我 们 可 以 对 其 扩展 成 
两 个 规则 (Stent, 1973; Changeux and Danchin, 1976); 

1 如果 两 个 神经 元 中 的 一 个 突 触 连接 是 同时 激活 的 〈 即 同步 的 )， 则 突 触 的 强度 会 选 树 性 
地 增强 。 

2 如 果 两 个 神经 元 中 的 一 个 突 触 是 异步 激活 的 ， 则 突 触 会 选择 性 地 减弱 或 消除 。 

这 样 一 个 突 触 叫做 Hebb Afk. (原始 的 Hebb 规则 不 包括 2.) 更 准确 地 说 ， 我 们 定义 一 
个 Hebb 突 触 ， 使 用 依赖 时 间 的 、 高 度 局 部 性 的 、 强 交互 的 机 制 来 提高 作为 前 突 触 和 后 突 触 相 
关 性 的 函数 的 突 触 的 有 效 性 。 从 此 定义 中 ， 我 们 可 以 推断 出 以 下 四 个 表示 Hebb 学 习 特 征 的 关 
键 机 制 (Brown 等 ，1990) : 

1. 依赖 于 时 间 的 机 制 。 此 机 制 表 示 对 Hebb 突 触 的 修改 依赖 于 前 突 触 和 后 突 触 信号 发 生 的 
准确 时 间 。 

2, 局 部 机 制 。 一 个 突 触 自然 地 提供 了 在 时 空 连接 中 的 信息 信号 的 变换 。 局 部 的 可 获得 的 
信息 可 通过 Hebb 突 触 产生 一 个 与 输入 有 关 的 局 部 突 触 的 修正 。 

3. 交互 机 制 。Hebb 突 触 的 变换 的 发 生 依赖 于 突 触 每 边 的 信号 。 这 就 是 说 ，Hebb 学 习 依 
赖 于 前 突 触 和 后 突 触 信号 之 间 的 交互 ， 在 此 意义 下 ,我们 不 能 通过 这 两 个 突 触 本 身 作 出 斋 测 。 
注意 到 这 种 依赖 或 交互 关系 在 本 质 上 是 确定 的 和 静态 的 。 

4, oe ROARS. MSE Hebb 假定 的 学 习 的 一 种 解释 就 是 对 于 突 触 有 效 性 的 改变 的 
条 件 是 前 突 触 或 后 突 触 信号 的 共 轿 。 因 此 ， 根 据 此 解释 ， 前 突 触 和 后 突 触 信 号 的 发 生 在 一 个 
短暂 的 间隔 肉 ) ， 已 足够 产生 突 触 修正 。 基 于 此 原因 ，Hebb 突 触 有 时 也 被 称 为 共 儿 突 触 。 对 
于 基于 Hebb 假定 的 学 习 的 另 一 个 解释 ， 我 们 可 以 考虑 交互 机 制 在 统计 的 意义 上 是 Hebb R fk 
的 重要 特征 。 特 别 地 ， 前 突 触 信号 和 后 突 触 信号 之 间 的 相关 性 被 认为 与 突 触 变 化 有 关 。 相 关 人 性 
实际 上 是 学 习 的 基础 (Chen 等 ，2007) 。 

在 数学 意义 上 推导 Hebb 学 习 的 表达 式 ， 考 虑 神经 元 关于 前 突 触 和 后 突 触 信号 的 突 触 权 

值 ， 其 分 别 记 为 x; 和 y;。 对 于 突 触 权 值 在 n 时 间 的 调整 由 如 下 通用 公式 表达 : 
Aw, Cn) = fy Cn) ,Tn)) (8. 1) 
其 中 了 f(*,") 是 一 个 关于 前 突 触 和 后 突 触 信号 的 函数 。 信号 zx;(n) 和 yi ln) 通常 被 认为 是 没有 维 
iy, KS 1) 有 许多 的 形式 :， 全 部 都 是 Hebb 的 。 因 此 ， 在 式 (8. 2) 中 ， 我 们 考虑 最 简单 的 

Hebb 学 习 形 式 : 

Awy (n) = py n) x; Cn) (8. 2) 
其 中 1 是 正常 量 ， 用 于 确定 学 习 率 。 式 (8. 2) 清 晰 地 强调 了 Hebb 突 触 的 相关 性 。 这 有 时 称 为 
激活 乘法 规则 。 从 式 (8.2) 中 ， 我 们 看 见 输 入 信号 2; (前 罕 触 激活 ) 的 反复 应 用 导致 了 的 增 
强 。 因 此 ， 指 数 性 的 增长 最 终 导致 了 突 触 连 接 的 饱和 。 在 此 时 ， 在 突 触 中 并 不 存储 新 的 信息 ， 
选择 性 也 消失 了 。 因 此 需要 一 些 机 制 来 稳定 神经 元 的 自 组 织 行为 。 这 就 要 考虑 到 第 二 个 原则 。 
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原则 2 竞争 原则 

第 二 个 自 组 织 原则 如 下 : 

可 用 资源 的 局 限 性 ， 以 一 种 或 另 一 种 的 形式 ， 导 致 单 个 或 一 群 神 经 元 的 突 甬 之 间 的 竞争 。 
这 个 结果 使 得 最 强健 增长 的 突 触 或 神经 元 是 以 其 他 神经 元 作为 代价 的 。 

第 二 个 原则 通过 突 触 可 塑性 实现 〈 即 突 触 权 值 的 可 调整 性 )。 

为 了 使 一 个 给 定 的 神经 元 趋 于 稳定 ， 它 的 突 触 之 间 必 须要 有 对 有 限 资 源 〈 如 能 量 ) 的 竞 
争 ， 以 此 方式 ， 神 经 元 中 一 些 突 触 的 增强 被 其 他 突 触 的 减弱 所 弥补 。 相 应 地 ， 只 有 最 成 功 的 突 
触 的 强度 可 用 于 增长 。 那 些 不 成 功 的 突 触 就 会 趋 于 减弱 ， 而 最 终 消 失 ，。 

在 神经 网 络 的 级 别 ， 一 个 相似 的 况 争 过 程 可 能 会 通过 以 下 过 程 发 生 (Rumelhart and 
Zipser，1985 ) : 

。 神经 网 络 中 的 神经 元 都 相同 ， 除 了 一 些 随机 分 布 的 突 触 权 值 : 因此， 神经 元 对 于 给 定 

的 输入 模式 的 啊 应 是 不 同 的 。 
。 在 神经 网 络 中 的 每 个 神经 元 的 强度 〈 即 突 触 权 值 的 总 和 ) 都 被 附加 了 一 个 特定 的 限制 。 
。 神经 元 之 间 对 于 一 个 输入 集 按照 给 定 的 规则 互相 竞争 ; 因此 ， 每 一 次 只 有 一 个 输出 神经 元 ， 
或 每 组 中 只 有 一 个 神经 元 是 激活 的 。 那 些 局 得 竞争 的 神经 元 叫做 “ 胜 者 全 得 ”神经 元 。 

我 们 因此 发 现 ， 通过 这 些 竞争 学 习 过 程 ， 网 络 中 的 个 体 神 经 元 对 于 不 同类 的 输入 模式 承担 
了 特征 探测 的 作用 。 

在 Hebb 学 习 中 ， 神 经 网 络 中 一 些 输出 神经 元 可 能 会 被 同时 激活 ， 在 竞争 学 习 的 任何 时 候 
仅 一 个 输出 神经 元 或 每 组 中 一 个 输出 神经 元 是 激活 的 。 竞 争 学 习 中 的 这 个 特征 使 得 其 非常 合适 
发 现 统计 上 突出 的 特征 ， 这 可 以 被 用 来 分 类 输入 模式 。 
原则 3 协作 

自 组 织 的 第 三 个 原则 如 下 ; 

在 神经 网 络 和 网 络 的 神经 元 级 别 中 ， 对 突 触 权 值 的 修改 趋 于 互相 合作 。 


由 于 突 触 可 塑性 或 由 于 在 外 部 环境 中 的 适当 条 件 的 存在 而 使 得 前 突 触 神经 元 同时 激活 ,而 
产生 协作 。 

考虑 到 单个 神经 元 的 第 一 种 情况 ， 单 个 的 突 触 不 能 有 效 地 产生 有 利 的 事件 。 因 此 ， 必 须 有 
神经 元 突 触 之 间 的 协作 ， 才 能 够 产生 是 够 强 的 激活 神经 元 的 信和 号 。 

在 网 络 层 次 ， 协 作 可 能 会 通过 一 组 激 法 的 神经 元 之 间 的 侧 向 交互 而 产生 。 特 别 地 ， 一 个 激 
活 的 神经 元 更 有 可 能 促进 它 近邻 的 神经 元 而 不 是 离 它 较 远 的 神经 元 。 在 一 段 时 间 后 ， 我 们 发 现 
通过 一 系列 小 的 变化 ， 一 个 协作 系统 会 趋 于 稳定 状态 。 

同样 也 要 注意 到 在 自 组织 系 统 中 ,会 同时 出 现 竞 争 与 协作 ， 然 而 竞争 总 是 优先 于 协作 。 
原则 4 结构 化 信息 

第 四 条 ， 也 即 最 后 一 条 原则 如 下 : 

在 一 个 输入 信号 中 存在 的 潜在 次 序 和 结构 代表 了 宛 余 的 信息 ， 其 通过 一 个 自 组 织 系统 以 知 
识 的 形式 获得 。 

因此 ， 可 以 说 包含 在 输入 数据 中 的 结构 化 信息 是 自 组 织 学 习 的 前 提 条 件 。 同 样 ， 也 需要 注意 ， 
自 增强 、 竞 争 、 协 作 是 在 神经 元 或 神经 网 络 中 的 过 程 ， 结 构 化 信息 或 元 余 是 输入 信号 的 内 在 性 质 。 

比如 说 ， 我 们 考虑 一 个 声音 或 视频 信号 。 当 这 样 一 个 信号 以 高 比率 取样 ， 则 样本 信和 号 相应 
地 会 呈现 出 较 高 程度 的 相关 性 。 这 里 的 相关 性 是 指 平均 的 ， 信 和 叶 从 一 个 样本 到 另 一 个 之 间 的 变 
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化 并 不 刚烈 。 这 也 意味 着 这 些 信号 含有 结构 化 的 宛 余 信息 。 换 句 话说 ， 相 关 性 是 结构 化 和 和 元 余 
的 同义词， 

要 评价 结构 化 的 重要 性 ， 我 们 假定 包含 在 一 个 信号 中 所 有 人 宛 余 信息 都 完全 去 除了 。 所 剩 下 
的 只 是 不 可 预测 的 非 元 余 信 息 ， 因 此 这 些 信息 可 能 无 法 与 噪声 区 分 开 。 考 虑 到 这 种 类 型 的 输 
入 ， 非 自 组 织 或 非 监督 学 习 系统 会 起 到 作用 。 
总 结 和 附注 

基于 神经 生物 的 自 组 织 规则 适用 于 神经 网 络 中 的 非 监督 训练 ， 但 对 于 更 为 通用 的 用 于 执行 
非 监 督学 习 任 务 的 机 器 学 习 却 并 不 是 必要 的 。 在 任意 的 学 习 任务 中 ， 非 监督 学 习 的 目标 是 建立 
_ 个 模型 ， 使 其 适合 于 一 组 无 类 标 数据 ， 使 数据 中 的 潜在 结构 能 够 很 好 地 表示 出 来 。 但 为 了 使 
模型 能 够 实现 ， 数 据 必须 是 结构 化 的 。 


8.3 自 组 织 的 特征 分 析 


视觉 系统 中 的 信息 处 理 是 分 阶段 的 。 具 体 地 ， 一 些 简单 的 特征 如 对 比 度 和 边缘 方向 是 在 系 
统 的 早期 阶段 分 析 的 ， 而 更 精致 复杂 的 特征 则 在 后 期 阶段 进行 分 析 。 8. 1 表示 与 视觉 系统 相 
似 的 模型 网 络 的 整体 结构 。 在 Linsker 的 模型 中 ， 图 8. 1 的 网 络 神经 元 组 织 成 二 维 层 ， 从 一 层 
到 下 一 层 具 有 局 部 前 馈 连 接 。 每 个 神经 元 只 接受 前 一 层 位 于 一 个 覆盖 区 内 有 限 数目 神经 元 的 信 
息 ， 此 区 域 称 为 接受 域 Creceptive field)。 网 络 接受 域 在 突 
触 的 形成 过 程 中 起 关键 作用 ， 因 为 它们 使 一 层 中 的 神经 元 对 
前 一 层 神 经 活动 的 空间 相关 性 的 反应 成 为 可 能 。 假设 下 面 两 
个 结构 特征 : 

1. 在 整个 神经 元 形成 过 程 中 ， 一旦 突 触 连接 被 选择 ， 其 
位 置 就 固定 了 。 

2. 每 个 神经 元 都 是 一 个 线性 组 合 笑 。 
模型 结合 Hebb 型 突 触 修改 的 协作 和 竞争 学 习 的 方面 使 得 网 络 
输出 最 优 地 区 分 输入 总 体 ， 这 需要 通过 自 组 织 学 习 从 一 层 到 一 
层 的 基础 上 处 理 。 即 学 习 过 程 在 处 理 下 一 层 之 前 允许 全 面 形成 
该 层 自身 的 自 组 织 特征 一 分 析 (feature analyzing) 特性 。 

在 Linsker 模型 中 模拟 结果 与 猫 和 猴子 的 视觉 形成 的 早 
期 具有 非常 相似 的 性 质 。 认 识 到 视觉 系统 的 高 度 复 淋 性 ， 而 
Linsker 考虑 的 非常 简单 的 模型 却 能 形成 相似 的 特征 -分 析 神 
经 元 ， 这 的 确 值得 注意 。 这 并 非 意 味 着 哺乳 动物 的 视觉 系统 
的 特征 一 分 析 神 经 元 形成 的 方式 与 上 面 的 Linsker 模型 描述 
的 方式 完全 相同 。 相 反 ， 它 只 能 说 明 按 照 Hebb 学 习 规 则 形 
成 突 触 权 值 ， 再 由 这 种 相对 简单 的 层 状 网 络 就 可 产生 这 种 结 





图 8.1 Linsker 模型 的 自 适 应 层 ， 
构 ， 因 此 对 自 组 织 原 则 提供 了 实用 的 证 明 。 pepe are es 


8.4 主 分 量 分 析 : 扰动 理论 


在 统计 模式 识别 中 ， 一 个 常见 的 问题 就 是 特征 选择 或 特征 提取 。 特 征 选择 是 指 将 数据 空间 
变换 到 特征 空间 的 过 程 ， 在 理论 上 与 原始 数据 空间 具有 相同 的 维 数 。 然 而 ， 我 们 希望 设计 一 种 
变换 使 得 数据 集 由 维 数 较 少 的 “有 效 ” 特 征 来 表示 ， 而 不 减少 原始 数据 所 包含 的 内 在 信息 所 
容 ， 换 名 话说， 数据 集 进行 了 维 数 压缩 。 具 体 来 说 ,假设 有 一 个 m 维 的 向 量 x， 希 望 压缩 到 / 
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维 ， 其 中 1<m。 如 采 我 们 简单 截断 x， 所 带 来 的 均 方 误差 等 于 会 掉 的 各 分 量 的 方差 之 和 。 因 此 
提出 下 面 的 问题 : 


是 否 存在 一 个 可 北 的 线性 变换 了 ， 使 得 对 Tx 的 截断 在 均 方 误差 意义 下 最 优 ? 


显然 要 求 变 换 工 后 的 菜 些 分 量具 有 较 低 的 方差 。 主 分 量 分 析 (principal components analysis, 
在 通信 理论 中 也 叫 Karhunen-Loéve 变换 ) 能 最 大 限度 地 减少 方差 .并 因而 是 正确 的 选择 。 在 
本 章 我 们 讨论 基于 Hebb 学 习 算 法 来 完成 数据 向 量 的 主 分 量 分 析 。 
令 义 为 表示 环境 的 m 维 随机 向 量 。 假 设 XX BAS, B: 
EX] = 0 
其 中 F 是 统计 学 习 中 的 期 望 运 算 符 。 如 果 X% 的 均值 不 是 0， 在 执行 分 析 之 前 先 减 去 其 均值 。 
今 q 表示 m 维 单位 向 量 ,，X 在 其 上 投影 。 这 个 投影 被 定义 为 向 量 X 和 qq 的 内 积 ， 表 示 为 : 
A = X'q=q’'X (8. 3) 
其 满足 约束 条 件 : 
lal = q7? =1 (8. 4) 
投影 A 也 是 随机 变量 ， 其 均值 和 方差 与 X 的 统计 有 关 。 由 假设 XX 的 均值 为 0， 推 知 A 的 
均值 也 为 0: 
ELA] = q ECX] = 0 
方差 与 其 均 方 值 相同 ， 可 写 为 : 


o = ELA? ] = El (aX) (Xq) ] = q ELXX ]q = Qq’Rq ` (8. 5) 
mXm 矩阵 及 是 随机 向 量 和 的 自 相关 上 短 阵 ， 定 义 为 向 量 买 和 它 自 己 的 外 积 的 期 望 ， 表 示 为 : 
R = EL Xx’ ] (8. 6) 
我 们 观察 到 相关 和 矩阵 R 是 对 称 的 ， 即 
R’ =R 
由 这 个 性 质 知 ， 如 果 a 和 bb 为 任意 mX1 向量 ， 那 么 
a’ Rb 一 b Ra (8. 7) 
由 式 (8. 5) 看 出 ， 投 影 A 的 方差 e: 是 单位 向 量 q 的 函数 ， 可 以 写 为 : 
gq) =a = q Ra (8. 8) 
基于 此 我 们 可 以 认为 y(q) 为 方差 探 针 《variance probe), 
主 分 量 分 析 的 特征 结构 


下 面 讨论 的 问题 是 在 欧 几 里 得 范 数 的 约束 条 件 下 ， 找 出 单位 向 量 q Yo DARA RE 
(extremal) 或 稳定 值 (stationary) 〈 局 部 最 大 或 最 小 ) 。 这 个 问题 的 解决 依赖 于 输入 回 量 的 相 
SEM R 的 特征 结构 。 如 果 q 为 单位 向 量 使 得 方差 探 针 y(q) 具 有 极 值 ， 那 么 对 单位 向 量 q 任 
意 小 的 扰动 ga， 我 们 发 现 直到 6q 的 一 阶 项 将 有 

pla +t dq = yq) 
现在 ， 从 式 (8.8) 给 出 的 方差 探 针 定义 ， 我 们 有 
pla + òq) = (q 十 6q)7RCq 二 6q) = q Rq + 2(dq)"Rq + (dq) R6g 
在 第 2 个 等 式 中 , 已 经 利用 式 (8.7)。 忽 略 项 (6q)”R6q 并 利用 式 (8. 8) 的 定义 ， 可 以 写成 


Jy(q+6q) = q'Rq+2(6g) "Rg = yq)+2(C6g) Rq (8. 9) 
pati) È gy(q) 的 一 阶 近似 ;因此 我 们 有 : 
Cq) Rq = 0 (8.10) 


对 q 而 言 ， 任 意 扰动 bq 是 不 允许 的 ， 相 反对 扰动 进行 限制 ， 仅 使 q 十 6q 的 欧 几 里 得 范 数 
为 1 的 扰动 是 允许 的 ， 即 : 
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la+éq]| =1 
或 等 价 地 : 
(q+é6q)'’(q+6éq) = 1 

因此 ， 根 据 式 (8.4)， 我 们 要 求 对 ð 的 一 阶 项 有 : 

(8q)7q = 0 (8. 11) 

这 意味 着 ， 扰 动 8q 必须 与 q 正 交 ， 因 此 仅 在 g 的 垂直 方向 上 变化 是 允许 的 。 

通常 单位 向 量 g 在 物理 意义 上 是 无 量 纲 的 。 从 而 如 果 结 合式 (8. 10) 和 式 (8. 11)， 那 么 我 们 必须 
ERGE. 11) 中 引入 一 个 比例 因子 4 使 得 它 和 相关 和 矩阵 R 中 的 元 素 有 相同 的 量 纲 。 于 是 可 以 写成 : “ 

(Sq)? Rq — ACdq)*q = 0 

或 等 价 于 : 

(Sq)*(Rq — Aq) = 0 (8. 12) 

式 (8. 12) 成 立 的 充 要 条 件 为 : 

Rg = Aq (8. 13) 

这 个 方程 控制 单位 向 量 q 使 得 方差 探测 值 DARE. 

式 (8. 13) 被 认为 是 特征 值 问题 ， 通 常 在 线性 代数 中 磁 到 〈Strang,1980) 。 仅 对 特殊 的 但 
问题 有 非 平 凡 解 〈 即 q 和 0) ， 和 被 称 为 相关 和 矩阵 RARE. MN q 被 称 为 特征 向 量 。 相 关 
矩阵 的 特征 值 必 须 是 非 负 数 。 假 设 它 的 特征 值 互 不 相同 ， 则 对 应 的 特征 向 量 是 唯一 的 。 令 mXm 
矩阵 R 的 特征 值 为 1; ,1 ，…,。 ， 对 应 的 特征 向 量 分 别 是 q; ,q: ,… ,9 。 我 们 可 写成 : 


Rq; = 4q, 了 一 1,2, (8. 14) 
令 相应 的 特征 值 按 降序 排列 ， 即 : 
和 (8.15) 
这 样 Ay 二 Mwx。 令 对 应 的 特征 向 量 用 于 构成 一 个 mXm FE 
Q= [qi Ga ttt Gyo An | (8. 16) 
我 们 可 以 结合 式 (8. 14) PH m 个 方程 为 一 个 方程 组 ， 
RQ = QA (8. 17) 
其 中 A 为 R 的 特征 值 构成 的 对 角 和 矩阵 ， 即 : 
A = diag[Ai he (8. 18) 
eR OER (E) #4, RECHI EE ER 的 特征 向 量 ) MEERA: 
l, j=i 
CE 19 5; (8. 19) 
式 (8. 19) 要 求 不 同 的 特征 值 。 等 价 地 ， 可 写成 ，; 
Q'Q=I 
由 此 可 以 推导 出 矩阵 ONDA E EEA, OD: 
Q = Q` (8. 20) 
这 意味 着 可 以 重 写 (8. 17) 为 众所周知 的 正 交 相似 变换 形式 : 
QRQ=A (8. 21) 
或 展开 为 : 
a Ajo R=J 
qi Ra. = 0 joes (8. 22) 


式 (8. 21) 的 正 交 相似 CH) RHEE RE RAE A. KEE R 可 以 用 特 
征 值 和 特征 向 量 表示 为 : 
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R = 之 qqz = QAQ” (8. 23) 


这 称 为 谱 定 理 。 对 所 有 i， 外 积 aq? 的 秩 为 1。 式 (8. 21) 和 式 (8. 23) 是 相关 和 矩阵 R 的 特征 分 解 
的 两 个 等 价 表示 。 
主 分 量 分 析 和 和 矩阵 R 的 特征 分 解 从 根本 上 来 说 是 一 致 的 ， 只 是 从 不 同 的 角度 观察 问题 。 
从 式 (8. 8) 和 式 (8. 22) 可 以 看 出 方差 探 针 和 特征 值 的 确 相 等 ， 表 未 为 : 
pq) = A;> 7 一 1 2，…，773 (8. 24) 
现在 ， 从 主 分 量 分 析 的 特征 结构 中 可 以 概括 两 个 重要 发 现 : 
。 零 均值 的 随机 向 量 XAKER R 的 特征 向 量 定义 为 单位 向 量 q; ， 代 表 主 方向 ， 沿 着 
它们 方差 探 针 oq ) 取 得 极 值 。 
。 相应 的 特征 值 定义 方差 探 针 y(qj ) 的 极 值 。 
基本 数据 表示 
令 数 据 向 量 x 为 随机 向 量 XX 的 实例 。 用 a 表示 随机 变量 A 的 一 个 实例 。 
由 于 单位 向 量 qg Am 个 可 能 的 解 ， 我 们 发 现 数据 向 量 x 有 m 个 可 能 的 投影 需要 考虑 。 特 
别 地 ， 从 式 (8. 3) 我 们 注意 到 : 
a; 一 gx 一 X qi， 了 一 1，2，… ,7 (8. 25) 
其 中 a; 是 x 在 单位 向 量 q 所 表示 的 主 方 向 上 的 投影 。a; 称 作 主 分 量 ， 与 向 量 x 具 有 相同 的 物 
HEH., AG 25) 的 公式 被 看 作 是 一 个 分 析 。 
为 了 从 投影 a 中 准确 重建 原始 数据 向 量 x， 我 们 可 以 采取 下 面 的 步骤 。 首 先 ， 将 一 组 投影 
(alj = 1,2,…,m } 组 合成 一 个 单一 的 向 量 ， 表 示 为 : 
a = [a saz" sam] = LX qx qx dn |) = Qx (8. 26) 
接着 在 式 (8. 26) 的 两 边 左 乘 矩 阵 Q， 再 利用 式 QQ- 二 I 的 关系 。 因 此 ， 原 始 数 据 向 量 x 可 
重建 为 ， 
x = Qa = >aigi (8. 27) 
它 可 被 看 成 合成 公式 。 在 这 种 意义 上 ， 单 位 向 量 9; 表示 数据 空间 的 一 组 基 。 确 实 ， 式 48. 27) 
只 是 一 个 坐标 变换 ， 根 据 该 变换 数据 空间 中 的 点 x 变 换 到 特征 空间 的 点 a。 
维 数 约 减 
从 统计 模式 识别 的 观点 看 ， 主 分 量 分 析 的 实际 价值 在 于 它 为 维 数 约 减 提 供 有 效 的 方法 。 具 
体 地 讲 ， 通 过 丢弃 式 (8. 27) 中 方差 小 的 项 ,保留 方差 大 的 项 ， 可 以 减少 有 效 数据 表示 所 需 的 特 
征 的 数量 。 令 族 ,As，… ,4 表示 相关 和 矩阵 R 的 前 /个 最 大 特征 值 。 我 们 截断 式 (8. 27) 中 的 ! 项 后 
面 的 展开 式 可 以 得 到 数据 向 量 x 的 近似 : 
= Xag; = [qi,qz，,"" ,qj É ? L& m (8. 28) 


对 给 定 的 原始 数据 向 量 x， 可 以 用 式 (8. 25) 计 算得 到 保留 在 式 (8. 28) 中 的 主 分 量 如 下 : 


ay qi 
ae qz 
: = f X, Z < m (8. 29) 
at qi 
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MR” FUR’ 的 线性 投影 〈“ 即 从 数据 空间 到 特征 空间 的 映射 是 对 数据 向 量 x 近似 表示 的 
编码 器 ， 如 图 8. 2a fia. Ae, MR’ 到 RR” 的 线性 投影 〈( 即 特征 空间 到 数据 空间 的 映射 》 
表示 为 对 原始 数据 向 量 x 近似 重 构 的 解码 器 ， 如 图 8. 2b 所 示 。 注 意 式 (8. 28) 和 式 (8. 29) PH 
述 的 优势 GRA) 特征 值 41 ,4;,… ,并 不 参加 计算 ， 它 们 只 是 分 别 决定 编码 器 和 解码 器 所 
使 用 的 主 分 量 的 数量 。 





a) b) 


图 8.2 主 分 量 分 析 的 两 阶段 说 明 : a) 编码 ; b) 解码 


逼近 误差 向 量 e 等 于 原始 数据 向 量 x AIBA exe. Bl: 
e=x-—xX | (8. 30) 
将 式 (8. 27) 和 式 (8. 28) 代 人 式 (8. 30) 得 到 ， 


Te a4 (8. 31) 


RE OF CMBURBGELEERH, MAS 3A. RAH. EA e 的 内 积 为 零 。 利 
用 式 (8. 28) FISK (8. 31) ， 这 个 性 质 可 以 表示 如 下 : 


= 2。 a! Yaa, = X Yaaay = 0 xt L<m (8. 32) 


i=] j=l 


SHR T RID A I 式 (8. 32) 称 作 正 交 性 原理 。 
由 式 (8. 8) 和 式 (8. 22) 的 第 一 行 ， 数 据 向 量 x 的 mx 个 分 量 的 
总 方差 为 ; 





Sio = yy (8. 33) 
其 中 a 是 第 i ESM a; 的 方差 ， 汪 近 向 量 % 的 ! 个 元 素 的 总 方 图 8.3 向 量 x、 它 的 重建 形式 % 
ZH: PRAHE e 的 关系 示例 
So = yA, (8. 34) 
FEI h RU- me) AEA I BE 
> 一 Da l (8. 35) 


特征 值 4. ，,… ,A ERER REA BD moD AREE: EAT 
BRG. 28) 中 丢弃 了 它们 所 对 应 的 项 。 这 些 特征 值 越 接 近 0， 降 维 (对 x 进行 主 分 量 分 析 
所 导致 的 结果 ) 后 保存 原始 数据 中 的 信息 量 就 越 有 效 。 因 此 ， 为 了 对 输入 数据 进行 维 数 约 减 ， 
我 们 : 

计算 输入 数据 向 量 的 相关 给 阵 的 特征 值 和 特征 向 量 ， 然后 将 原始 向 量 投影 到 优势 特征 值 对 
应 的 特征 向 量 生成 的 子 空间 。 

这 种 数据 表示 方法 通常 称 为 子 空间 分 解 (Oja,1983)。 
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fll 双 变 量 数据 集 

为 了 说 明 主 分 量 分 析 的 应 用 ， 考 虚 双 变量 (CA) 数据 集 的 例子 ， 如 图 8.4 所 示 ， 其 中 假 
设 两 个 特征 轴 的 标 度 近似 相同 。 图 中 水 平 轴 和 垂直 轴 表 示 数 据 集 的 自然 坐标 轴 。 标 号 为 1 和 ?2 
旋转 坐标 轴 是 应 用 这 个 数据 集 的 主 分 量 分 析 产 生 的 结果 。 从 图 8. 4 可 以 看 出 数据 集 投影 到 ] 号 
轴 上 抓 住 了 数据 的 主要 特征 ， 即 具有 双 峰 〈( 即 在 它 的 结构 上 有 两 个 诊 类 ) 的 特点 。 的 确 ， 数 据 
投影 到 轴 1 的 方差 比 投影 到 其 他 轴 上 的 要 大 。 相 反 ， 当 映射 到 轴 2 时 ， 数 据 内 在 的 双 峰 特征 完 
全 模糊 。 

从 这 个 简单 的 例子 中 可 以 得 到 一 个 重要 的 结论 。 虽 然 ， 带 有 但 类 结构 的 数据 集 在 带 有 水 平 
轴 和 垂直 轴 的 二 维 平 面 图 上 很 明显 ， 但 在 实际 中 并 不 总 是 这 样 。 在 更 一 般 的 高 维 数据 集中 ， 可 
以 想象 数据 固有 的 聚 类 结构 被 隐藏 ， 要 想 看 到 它 必须 进行 与 主 分 量 分 析 相 似 的 统计 分 析 《Lin- 
sker,1988a), a 
案例 研究 AFER SEA 

主 分 量 分 析 提 供 了 数字 图 像 压缩 的 一 种 简单 有 效 的 方法 。 对 于 存储 容量 、 变 换 和 特征 提取 
的 一 个 实用 性 上 的 要 求 就 是 图 像 是 压缩 的 。 图 8.5 所 示 的 PCA 使 用 实际 数据 ， 以 验证 此 论断 
(Holmström 等 ，1997; Hyvärinen 等 ，2001) 。 

图 8. 5 最 左 端 显示 了 一 组 10 个 手写 数字 ， 即 0 到 9， 每 一 个 都 用 一 个 32 Xx 32 的 矩阵 组 成 
的 二 值 图 像 表 示 。 当 每 一 个 图 像 在 一 行 一 行 的 基础 上 扫描 ， 就 产生 了 一 个 1 024X1 的 向 量 。 
对 于 这 10 个 数字 中 的 每 一 个 ， 大 约 1 700 个 手写 字 的 样本 被 收集 。 样 本 均值 (1 024X1 的 向 
量 ) 和 协 方差 答 阵 (1 024X1 024 WER) 使 用 标准 方法 佰 计 。 对 于 这 10 个 手写 字 类 的 每 一 
个 ， 计 算 协 方差 矩阵 的 前 64 个 主 特征 回 量 〈 分 量 ) 。 图 的 第 二 行 表示 计算 的 样本 均值 。 下 面 6 
列 显 示 重 构 的 图 像 ， 其 指标 :表示 用 式 (8. 28) 重 构图 像 时 所 使 用 的 主 分 量 的 个 数 。 在 这 些 图 像 
中 ,各自 加 上 了 样本 均值 ， 以 合适 的 比例 显示 图 像 。 








\ 8 | i < O m | 
` eat ns » RSLS i 
S EP 7 § 
4 YX: ples * 
| D> 78 
0 2 4 6 8 GB a4 
图 8.4 二 维 平面 的 一 组 数据 ， 它 们 投影 到 两 个 轴 1 和 2 图 8.5 使 用 主 分 量 分 析 的 手写 数字 的 
的 密度 图 。 投 影 到 轴 1 有 最 大 方差 .清楚 地 表明 压缩 《这些 图 像 的 复制 已 得 到 
数据 的 双 峰 或 聚 类 特征 了 Juha Karhunen 博士 的 允许 ) 


由 图 8. 5 所 示 的 PCA 的 结果 ， 我 们 得 到 如 下 三 点 : 

。 随 着 重 构 的 大 小 /1 由 1，2，5，16，32，64 逐渐 增长 ， 重 构 的 图 像 也 与 原始 的 10 个 手 
写字 图 像 越 来 越 相 似 。 

。 当 重 构 大 小 /二 64 时 ， 每 一 个 重 构 的 数字 都 非常 清晰 。 
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。 对 于 总 共 1 024 个 分 量 个 数 ， 最 大 的 重 构 大 小 :二 64 只 是 一 个 小 的 比例 。 
主 分 量 个 数 的 估计 

在 前 面 所 讨论 的 数字 图 像 压 缩 中 ， 主 分 量 的 个 煞 〈 即 维 数 约 减 的 大 小 ) 是 在 实验 中 确定 
的 。 对 于 这 个 估计 问题 的 分 析 结 果 ， 我 们 可 以 把 它 看 作 一 个 模型 选择 问题 。 第 2 章 所 讨论 的 最 
小 描述 长 度 原 则 为 解决 此 问题 提供 了 一 个 好 的 测试 方法 。 

在 Wax and Kailath (1985) F, MDL 准则 被 用 于 阵列 信号 过 程 ， 即 在 有 附加 品 声 的 同 
时 ， 确 定 一 个 达到 信号 的 方向 。 为 了 解决 这 个 问题 ， 可 以 用 MDL 准则 把 输入 数据 空间 分 解 成 
两 个 子 空间 ， 一 个 代表 信号 子 空间 ， 另 一 个 代表 嗓 声 子 空间 。 基 本 上 ， 把 输入 数据 空间 分 解 成 
信号 子 空 个 和 噪声 子 空间 ， 同 解 一 个 维 数 约 减 问 题 是 相同 的 。 在 此 人 癌 题 中 ， 信 和 号 子 空间 的 维 数 
定义 了 响应 于 最 大 特征 值 的 主 特征 回 量 《〈 分 量 ) 的 数量 。 


8.5 基于 Hebb 的 最 大 特征 滤波 器 
自 组 织 神经 网 络 的 行为 和 主 分 量 分 析 的 统计 方法 之 间 存 在 密切 的 联系 。 在 本 节 ， 我 们 将 通 
过 建立 一 个 著名 的 结果 来 证 实 这 个 关系 (Oja, 1982): 


突 触 权 值 采 用 Hebb 自 适应 规则 的 单个 线性 神经 元 能 够 形成 关于 输入 分 布 第 一 个 主 分 量 的 


要 继续 这 个 证 明 ， 先 考虑 如 图 8. 6a 所 示 的 简单 神经 元 模型 。 该 模型 在 模型 输出 为 它 的 输 
人 的 线性 组 合 这 个 意义 下 是 线性 的 。 神 经 元 通过 m 个 分 别 具 有 权 值 w ws wn 的 突 触 来 接 
Wm 个 输入 信号 Tys La” eo dm 模型 的 输出 结果 : 


y= ees (8. 36) 
注意 这 里 描述 的 情形 ， 我 位 仅 处 理 单个 神经 元 ， 所 以 不 需要 用 双 下 标 表 示 网 络 突 触 权 值 。 


x(a) 


xan) 


x(n) 


输入 向 量 】 220? 
x(n) 


输出 


yin) Gn 





a) b) 


图 8.6 最 大 特征 滤波 器 信号 流 图 表示 : a) 式 (8. 36) 的 图 ; D 式 (8.41) 和 式 (8. 42) 的 图 


最 大 滤波 器 的 推导 
根据 Hebb 学 习 的 假设 ， 当 前 突 触 信和 号 zx 和 后 突 触 信号 y 一 致 时 ， 突 触 权 值 随时 间 逐 步 

加 强 。 具 体 可 与 成 : 
wi(n 1) = w: (n) + py (nn) ri(n), i = 1,2," ,1 (8. 37) 
其 中 n 表示 离散 时 间 ，w 是 学 习 率 参数 。 但 是 ， 如 8. 2 节 所 述 的 那样 ， 这 个 学 习 规 则 的 基 
本 形式 会 导致 突 触 权 值 w; 无 限 增 大 ， 这 在 现实 上 是 不 能 接受 的 。 在 突 触 权 值 自 适 应 学 习 规 则 
中 采用 菜 种 程度 的 饱和 度 或 归 一 化 ， 可 以 解决 这 个 问题 。 利 用 归 一 化 方法 具有 在 神经 元 的 突 触 
权 值 间 由 于 有 限 资源 导致 竞争 的 效果 ， 从 自 组 织 的 原则 2， 这 是 稳定 性 的 关键 。 从 数学 上 来 考 
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E, A. 37) 方 便 的 归 一 化 形式 描述 如 下 : 
ee EE w;({n) + ny (n)2z;(n) (8. 38) 


( >» Cw; (n) + p(n)a(n))*) 


其 中 分 母 的 求 和 是 针对 神经 元 的 所 有 突 触 权 值 。 假 设 学 习 率 参数 7 很 小 ， 可 以 将 式 (8. 38) 
展开 成 了 的 震级 数 形式 ， 所 以 写成 : 


(X m Hp) = (Dw Hya) + OG) 


= ( Dwi 0n) TODA TOG) 


= (1 + 2yy’ (n))? + OG’) 
= 1+ p? m tO) (8. 39) 
在 式 (8. 39) 右 边 的 第 三 行 ， 我 们 使 用 以 下 约束 ， 


Suita) = wa) = 对 所 有 
以 及 此 输入 输出 关系 : 
y(n) = Swi (a: Cn) 
另外 ， 在 式 (8. 39) 的 最 后 一 行 ， 我 们 在 假定 7 较 小 的 情况 下 使 用 如 下 的 逼近 公式 : 
(1+ 2yy’ Ca) ~ 14 my? (nr) 
FE. ARGE. 38) 中 的 分 子 除 以 式 (8. 39) 中 分 母 的 近似 表示 ， 再 假定 7 很 小 ， 我 们 可 以 
Bit: | 


| _ wa) + my (n) ri Cn) 
NOT GO Ga O 


= (w; (n) + y(n) a: (n)) A + py’ Cn) + OC) 
= (w; na) + y(n) a;(n)) 1 — wy HOF) 
= w; (a) + p (n) z: (n) — p nw: ad + OC ) 
合并 常 项 ， 略 去 二 阶 项 ， 最 终 写 出 : 
wi(n+1) = w; (n) + gy) Ca; Cn) — yn) wi(n)) (8. 40) 
式 (8. 40) 右 端的 项 y(n)z;(n) 表 示 突 触 权 值 通常 的 Hebb 修改 ， 这 符合 自 组 织 原则 1 描绘 
的 自 放 大 效果 。 依 据 原则 2， 该 式 中 含有 人 负 项 一 y(n)wi(n) 导 致 稳定; 它 修改 输入 xz;(n) 成 一 种 
依赖 于 相应 突 触 权 值 w;(n) 和 输出 y(n) 的 形式 ， 表 示 为 : 


z: (n) = 2:(n) — y(n) w;(n) (8. 41) 
可 以 视 为 第 i 个 突 触 的 有 效 输 入 。 由 式 (8. 41) 的 定义 可 以 重 写 式 (8. 40) 的 学 习 规 则 如 下 : 
wiin+1l)= w; (n) + gy Cn) ri (n) (8. 42) 


神经 元 的 整体 操作 可 由 两 个 信号 流 图 的 组 合 来 表示 ， 如 图 8.6 所 示 。 根 据 式 (8.36)， 图 
8. 6a 的 信号 流 图 表明 输出 yn RRA w n), w: (nn) ,… ,wa《n) 。 图 8. 6b 的 信号 流 图 提供 
式 (8. 41) 和 式 (8. 42) 的 图 像 ， 图 中 的 传递 参数 ? “表示 单位 延迟 操作 符 。 在 图 8. 6a 中 所 产生 的 
输出 y(n) ZEA 8. 6b 中 作为 传递 系数 。 图 8. 6b 清楚 地 展示 了 作用 于 神经 元 的 内 部 反馈 的 下 列 
两 种 形式 : 

© 根据 外 部 输入 rn), BAKK ERRI R RBE w (n) A, 

。 由 于 一 y(z) 的 负 反馈 控制 wi(n) 的 增 大 ， 因 此 了 于 致 突 触 权 值 tw;(n) 的 稳定 。 

乘积 项 一 y(n)vw(n) 与 在 学 习 规 则 中 经 常用 到 的 遗忘 因子 或 泄漏 因子 有 关 ， 但 存在 差别 对 
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于 较 强 的 响应 y(n) ， 遗 忘 因 子 变 得 更 加 显著 。 这 种 控制 现象 有 神经 生物 上 的 支持 (Stent,1973)。 
算法 的 矩阵 形式 
为 了 描述 上 的 方便 ， 令 : 
x(n) = [xiln) ra (n) ot Enn) | (8.43) 


wn) = | wy Cn) sw (n) 5 *** Wna Cn) | (8. 44) 
输入 向 量 x(n) 和 突 触 权 值 向 量 w(z) 通 常 都 是 随机 向 量 的 实现 。 用 这 个 向 量 符号 可 以 重 写 
式 (8. 36) 为 内 积 形式 如 下 : 


y(n) = x’ (n)wtn) = wi (n) x(n) (8. 45) 
同样 地 ， 可 以 重 写 式 (8. 404: 
w(2 十 1) = won) + ny (Cn)L x(n) — y(n)wtn) | (8. 46) 


将 式 (8. 45) 代 人 式 (8. 46) 得 : 
win +1) = w(n) 十 nLXCn)x (Ca)wC2a) 一 w? (n) (x(n) x? (2) wn) wn) | (8.47) 
式 (8. 47) 所 示 的 学 习 算 法 为 非 线性 随机 差分 方程 ， 这 使 得 该 算法 的 收敛 性 分 析 在 数学 上 很 
难 进行 。 为 了 得 到 收敛 性 分 析 ， 我 们 在 假定 学 习 参 数 7 很 小 的 前 提 下 ， 先 简单 介绍 随机 通 近 算 
法 收敛 分 析 的 一 般 工 具 。 
Kushner 的 直接 平均 方法 
检查 自 组 织 学 习 算法 的 式 (8. 47) 右 端 ， 我 们 得 到 以 下 两 点 : 
L 输入 向 量 x(n) UAIR xs (mn) 的 形式 出 现 ， 表 示 协 方差 矩阵 及 的 瞬时 值 ， 即 式 (8. 6) 
中 去 掉 期 望 算 子 且 把 xCn) 当 作 随 机 向 量 X(n) 的 一 个 实现 。 实 际 上 ，x《n)x”(n) 可 以 表示 此 等 式 
的 随机 行为 。 
2. 因为 此 算法 是 非 监 督 的 ， 故 而 此 算法 没有 外 部 因素 的 作用 。 
由 式 (8. 47) 可 知 ， 算 法 的 特征 均值 可 以 如 下 定义 : 
1+ pf (x(n) x" (n)) — wi (n) (x(n) x Cn)) WO) TH (8. 48) 
Hp TA, “UTE AIA WET BRE, FERA C. 47) 中 新 
权 值 向 量 wn 十 1) 的 更 新 公式 。 注 意 项 w'n) (x(n)x" (Cn))wln) 是 一 个 内 积 即 标量 ， 因 此 ， 我 
们 必须 用 单位 矩阵 I 乘 以 该 项 ， 以 保证 同 式 (8. 48) 剩 下 项 之 间 的 矩阵 乘法 的 兼容 性 。 
现在 ， 请 回忆 第 3 章 最 小 均 方 算法 (LMS) 中 Kushner 直接 平均 方法 ， 根 据 此 方法 ,我 
们 用 以 下 的 式 来 震 换 式 (8. 48) 中 的 特征 矩阵 : 
I+ nLR—w (n) Rw) 1) (8. 49) 
只 要 学 习 参 数 yi). RTSRREARH. EEKBL T. RM, x(n)x"™ Cn) 
可 以 充当 协 方差 矩阵 RNA. 
因此 ， 我 们 可 以 说 只 要 7 很 小 ， 式 (8. 47) 的 随机 方程 的 解 就 与 如 下 的 非常 简单 的 确定 性 差 
分 解 足够 接近 ，: 
wn 十 1) = win) + 7 R- w (n)Rw(n) Lwin) (8. 50) 
我 们 令 
Aw(n) = wn 二 1)— wn) 
用 :表示 连续 时 间 ， 我 们 可 以 说 权 值 在 离散 时 间 7 的 增 量变 化 量 awo 与 权 值 wb 在 连续 时 间 
的 变换 率 成 比例 。 其 比例 关系 如 下 式 所 不 : 
OW oc AwCn) (8. 51) 
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因此 ， 把 学习 参 数 7 代入 式 (8. 51) 中 作为 比例 因子 ， 并 规范 时 间 t， 我 们 可 以 通过 如 下 的 
非 线性 常 微分 方程 来 描述 最 大 特征 滤波 器 的 变化 : 


owen = Rw(t) — (wT Rw) we) (8. 52) 
其 中 二 次 项 w (zt)Rw(t) 是 标量 ， 使 得 在 矩阵 项 中 ， 方程 的 维 数 是 正确 的 。 
最 大 特征 滤波 器 的 渐 近 稳定 性 
根据 相关 惩 阵 R 特征 向 量 的 完全 正 交 集 将 w(t) 展 开 成 : 
wC) 一 Sor (8. 53) 


其 中 q 是 RKE k PIA HREM SE, ARAoDEWDBwWOK q 上 的 时 变 投影 。 将 式 
(8.53) 代 人 式 (8.52)， 并 应 用 8. 4 节 中 的 基本 定义 ， 





Rq, = Arq: 
和 
qi Ra, = Àk 
其 中 尺 是 与 q 相关 的 特征 值 ， 最 后 得 到 
2 D g, = DADDA = | DA o | 259: (2) as (8. 54) 
等 价 于 
SD OD) D DAO, k= 12 (8. 55) 


从 而 我 们 将 式 (8. 47) 的 随机 到 近 算 法 的 收敛 性 分 析 归 结 为 包含 主 模式 Cprincipal mode) 4, Ct) 
的 常 微分 方程 组 (8. 55) 的 系统 稳定 性 分 析 。 
修正 Langevin 公式 

鉴于 第 3 章 中 所 谈论 的 自 适应 LMS 滤波 器 ， 我 们 把 与 最 大 特征 滤波 器 相关 的 式 (8. 55) 看 
成 不 受 外 力 驱 动 的 Langevin 公式 的 非 线性 修正 形式 ， 其 理由 如 下 : 

CiD 我们 说 Langevin 公式 是 修正 的 ， 是 因为 等 式 右 端 有 正 项 X49:(t)， 其 对 等 式 放 大 ; H. 
这 个 放大 项 是 基于 Hebb 规则 的 。 

(ii) Langevin 公式 是 非 线 性 的 ， 是 因为 第 二 项 一 一 9.(t) 》4.0?; (GD ， 其 归 因 于 最 大 滤波 
an OS fan [el YY oe Ft 

(ji) Langevin 公式 没有 外 力 驱 动 ， 是 因为 最 大 滤波 顺 是 目 组 织 的 。 
因为 没有 外 力 驱动 ， 故 而 不 同 于 LMS 滤波 器 ， 最 大 滤波 器 以 渐进 的 方式 绝对 收敛 。 然 而 ， 非 
线性 最 大 滤波 器 使 得 收敛 行为 的 学 习 在 数学 上 更 为 困难 。 
Langevin 等 式 的 收敛 性 分 析 

依赖 于 对 下 标 & 所 赋 给 的 值 ， 可 分 为 两 种 情况 。 情 况 工 对 应 于 1 二 km。 情 况 [[ 对 应 于 
k=l; m 为 x(n) 和 w(n) 的 维 数 。 依 次 考虑 这 两 种 情况 。 

情况 I i<k<m, 

要 处 理 这 种 情况 我 们 定义 : 
Oe CE) 
0 Ct)’ 


”首先 假设 9.(4) 关 0， 若 初始 值 w(0) 随 机 选取 ， 概 率 1 为 真 。 对 式 (8. 56) 两 边 对 时 间 上 求 导 
数 得 到 





ar (t) = l<ckam (8. 56) 
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de(t) 1 dO(t) QG) d, Ct) 


天 — ma OUT Oe 


dż QHD at AWD dt 


we 1 dé, Ct) a, Ct) d, Ct) 
0) dt A(t) d’? 


其 次 ， 将 式 (8.55) 代 入 式 (8. 57)， 利 用 式 (8. 56) 的 定义 并 化 简 结 果 ， 得 到 

















l=<k<m (8. 57) 


Se 一 一 0 Ada), bakm (8, 58) 
(ES FB EE R 的 特征 值 互 不 相同 且 按 降序 排列 ， 则 有 
二 (8. 59) 


由 此 推 知 特征 值 之 差 入 一 为 正 ， 在 式 (8. 58) 中 表示 一 个 时 间 常 数 的 倒数 。 所 以 ， 从 情况 
LAW: 


al > 0, two, 当 1 < 过 kk 之 m (8. 60) 
情况 下 k=1。 
从 式 (8.57) 可 知 ， 第 二 种 情况 由 如 下 的 微分 方程 朱 述 : 
1862 = àf Ct) — 0 C) DAG C2) 


= AA (E) — AA (1) — 8 C) Nab (2) 


= h OS APOD — AA Sarai A) (8. 61) 
f=2 


然而 ， 从 情况 工 我 们 知道 ， 当 1->co 时 ， 对 于 UAL, a oO, Al, 4 BAAN, A 
(8. 61) 右 端的 最 后 一 项 接近 0。 忽 路 此 项 ， 式 (8. 61) 简 化 为 : 


ce -=La OUEN] Aro (8. 62) 


但 是 必须 强调 ， 只 在 渐进 意义 下 式 (8. 62) 才 成 立 。 

方程 (8. 62) 表示 自治 系统 (期 系统 不 显 式 依赖 于 时 间 )。 这 样 一 种 系统 的 稳定 性 最 好 由 
称 为 Lyapunov 函数 的 正定 函数 处 理 ，Lyapunov 函数 的 具体 处 理 细节 将 在 第 14 章 介 绍 。 令 s 
表示 自治 系统 的 状态 向 量 ，V (2) 表示 系统 的 Lyapunov 函数 。 如 果 满 足下 列 条 件 ， 则 系统 的 平 
衡 状态 是 渐进 稳定 的 : 


SVCD <0, X sE y— š 
其 中 忆 为 5 的 邻 域 。 
对 当前 的 问题 ， 我 们 断言 微分 方程 (8. 62) 有 一 个 由 下 式 所 定义 的 Lyapunov AR: 
Vin = [o=] (8. 63) 
为 了 证 实 这 个 断言 ， 必 须 证 明 V (2) 需 要 满足 下 面 两 个 条 件 : 
1. YP <o 对 于 所 有 ; (8. 64) 
2 Va) 有 最 小 值 (8. 65) 


在 式 (8. 63) PRT eSB: 


dV) _ 47 dA) 
SS = 40 (OLA) — 1) ~ 


其 中 在 第 二 个 等 式 利用 了 式 (8. 62)。 因 为 特征 值 4 BEN, ARC 66) 发 现 ， 当 + 上 趋 近 无 穷 大 
时 ， 式 (8. 64) 的 条 件 为 真 。 此 外 ， 从 式 (8. 66) 知 VOTE A (0 一 士 1 处 具有 最 小 值 CB dV 2/ 
dt 二 0)， 所 以 式 (8. 65) 的 条 件 也 满足 。 因 此 我 们 可 以 用 下 列 陈 述 结束 情况 卫 的 分 析 : 


— A, 6M Ga)—-1]?, 了 一 co (8. 66) 
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8a) -> 十 1， t—+co (8. 67) 
根据 式 (8. 67) 中 描述 的 结果 和 式 (8. 66) 的 定义 ， 可 以 重新 陈述 式 (8. 60) 中 情况 工 的 结果 的 
最 终 形式 : 
dt) ~ 0, t> 当 1<R 扫 7 (8. 68) 
从 情况 工 和 工 的 分 析 作 出 的 全 面 结 论 是 两 方面 的 : 
。 式 (8.47) 描 述 的 随机 逼近 算法 仅 主 模式 收敛 于 2 (690 ， 算 法 的 其 他 所 有 模式 将 衰减 为 0。 
。 模式 0 (OWA, 
因此 ， 渐 进 稳定 性 定理 的 条 件 5 满足 。 特 别 地 ， 依 据 式 (8. 53) 的 展开 式 ， 可 以 正式 地 如 下 陈述 : 
wlt) > q>» t> œ (8. 69) 
其 中 q 是 相关 和 矩阵 R 的 最 大 特征 值 A; 对 应 的 归 一 化 特征 问 量 。 
最 后 ， 要 确立 式 (8. 69) 的 解 只 是 式 (8.52) 的 非 线性 常 微 分 方程 的 一 个 局 部 渐进 解 (Lya- 
purnov 意义 下 的 )。 我 们 必须 先 满足 如 下 的 离散 时 间 域 的 条 件 : 


BBG) RHR (8. 52) 的 解 附近 的 吸引 域 ， 则 参数 向 量 wa) 以 概率 1 无限 地 进入 吸引 域 
Bl(g) 的 一 个 紧 子 集 A。 
(吸引 域 的 概念 在 第 13 EPEL.) 
为 了 满足 此 条 件 ， 我 们 必须 证 明 对 存在 所 有 向 量 集 合 % 的 子 集 满足 如 下 等 式 : 
lim wn) =q 概率 1 经 常 是 无 穷 的 (8. 70) 
为 了 这 样 做 ， 我 们 必须 先 证 明 参 数 向 量 列 w(n) 以 概率 1 为 界 ， 这 可 通过 硬性 限制 w OD 的 
项 ， 使 它们 的 幅度 值 小 于 阔 值 a。 我 们 可 以 定义 w RIRAN 
| wn) || = max|w;() | <a (8. 71) 
SAER” 的 压缩 子 集 ， 由 一 个 范 数 小 于 等 于 a 的 向 量 集 定义 。 可 以 直接 证 明 (Sanger, 
1989b) 。 


如 果 || win) || 委 &， 且 常数 4 足够 大 ， 则 | wa 二 1 |< |_wG) 以 概率 1 成 立 。 


于 是 ， 随 着 迭代 次 数 n 的 增 大 ，w(n) 将 最 终 进 入 内 并 以 概率 1 留 在 内 部 。 因 为 吸引 域 
%(qi) 包 括 所 有 有 界 范 数 的 向 量 ， 因 此 有 EW(q1 ) 。 换 句 话 说 ， 条 件 6 满足 。 

现在 证 明 (在 使 用 较 小 学 习 参 数 的 情况 下 ) 随机 允 近 算法 (8. 47) 将 使 wn) 以 概率 1 收 
敏 于 特征 向 量 q, q 是 与 相关 和 矩阵 R 的 最 大 特征 值 4 对 应 的 特征 向 量 。 这 不 仪 是 算法 的 固定 
已， 而 且 是 唯一 的 渐进 稳定 战 。 
基于 Hebb 规则 的 最 大 特征 滤波 器 的 性 质 小 结 

刚才 给 出 的 收 伍 分 析 只 证 明 ， 由 式 (8. 40) 或 式 (8.46) 的 自 组 织 学 习 规则 控制 的 单个 线性 神 
经 元 自 适应 地 抽取 平稳 输入 的 第 一 个 主 分 量 。 这 第 一 个 主 分 量 对 应 于 随机 向 量 XCn) 的 相关 短 
Me AEA; SBM EA 与 模型 输出 y(n) 的 方差 有 关 ， 如 下 所 未 。 

A g2(n) 表 示 随 机 变量 Y(n) 的 方差 ，y(n) 表 示 Y(n) 的 一 次 实现 ， 即 

a(n) = ELY? Cn) ] (8.72) 
其 中 由 于 输入 均值 为 零 ，Y(n) 具 有 0 均值 。 在 式 (8. 46) 中 令 n->co 并 且 利 用 w(z) 趋 向 于 q 的 
事实 ， 我 们 得 到 : 
x(n) = yn)qi， 当 n 一 co 

利用 这 个 关系 ， 可 以 证 明 当 迭代 次 数 BA For, JA MBAT A; 参见 习题 8. 6。 

总 之 ， 其 运行 由 式 (8. 46) 描 述 的 基于 Hebb 的 线性 神经 元 以 概率 1 收敛 于 一 个 图 定 点 ,化 
具有 如 下 的 特征 COja, 1982): 
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1. 模型 输出 的 方差 趋向 于 相关 和 矩阵 R 的 最 大 特征 但 ， 表 示 为 : 


lim ø’ (n) 一 a; (8. 73) 
2. FAA A eh A EL ed E A FER PGE dat. EAN: 
lim wln) = q; (8.74) 
和 
lim || wm || = 1 (8. 75) 


这 些 结 果 均 假设 相关 和 矩阵 REEE, ARORA A 的 重 数 为 1。 这 些 结 末 也 和 运用 于 
具有 1 这 0 且 重 数 为 1 的 非 负 年 相关 和 矩阵 R。 


例 2 匹配 滤波 器 
考虑 随机 向 量 和 ，X 的 实现 用 x 表示， Q 
X 一 S 十 V (8. 76) 
其 中 向 量 s 为 固定 单位 向 量 ，YV 表示 噪声 分 量 ， 具 有 零 均 值 ， 协 方差 为 ol。X 的 相关 和 滤 阵 
Ñ.: 
R = EXX m] = ss +I (8.77) 
E eH KERE R 的 最 大 特征 值 : 
人 (8. 78) 
对 应 的 特征 向 量 q 为 一 s， 容 易 证 明 在 这 种 情况 下 这 个 解 满 足 特征 值 问 题 : 
Rq; = åq: 
EE, ITEP, HARREZ OAIE ER AA e h 
滤波 器 ， 其 冲击 响应 (由 突 触 权 值 表示 〉 与 输入 向 量 X(n) 的 信号 分 量 s DUAL. 国 


8.6 基于 Hebb 的 主 分 量 分 析 


上 一 节 中 基于 Hebb 的 最 大 特征 滤波 器 抽出 输入 的 第 一 个 主 分 量 。 这 个 单线 性 神经 元 模型 
的 前 馈 网 络 型 可 以 扩展 到 单 层 线 性 神经 元 的 前 馈 网 络 ， 目的 在 于 对 输入 进行 任意 大 小 的 主 分 量 
分 析 (Sanger,1989b)，。 


广义 Hebb 算法 
考虑 如 图 8.7 所 示 的 前 馈 网 络 。 假 设 具 有 下 面 两 个 结构 属性 : 
1. 网 络 输出 层 的 每 个 神经 元 是 线性 的 。 
2. 网 络 有 m 个 输入 和 1 个 输出 ， 它 们 都 是 指定 
的 。 另 外 ， 网 络 输出 少 于 输入 《 即 人 二 1m)，。 
网 络 接 受训 练 的 仅 有 突 触 权 值 集 {wi; }， 它 们 将 输 op 
和 人 层 的 源 节 点 i 和 输出 层 计算 节点 7 连接 起 来 ， 其 中 x 
i= 1,2, ,Mm 和 和 jy 二 1,2 。 
在 时 刻 n 神经 元 j 对 输入 集 {(z (Cn) | i=l, 
2m ;的 响应 所 产生 的 输出 y; OOH FRA CS | 
看 图 8. 8a): 图 8.7 仅 有 单 层 计算 节点 的 前 向 反馈 网 络 : 
y;(n) = > wi (n) z: (n) ’ j = Teese tet (8. 79) 
根据 Hebb 学 习 的 广义 形式 ， 修 改 突 触 权 值 w; RAPA (Sanger, 1989b); 


7 7 一 三 ] ,2 m 
Aw; (n) = qfy Dz: m) — y; (n) Down ad yr Cn)), rey (8. 80) 
k=l = Lehy*** 9 
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其 中 Aw, DEEN Zl n 对 wi(n) 的 修改 ,是 学 习 率 (Sanger,1989b)。 注 意 在 式 (8. 80) 中 ， 
下 标 i 指 的 是 图 8.7 中 网 络 的 输入 ， 而 下 标 j 指 的 是 其 输出 。 对 于 一 层 含 有 i 个 神经 元 的 式 
(8. 80) 所 示 的 广义 Hebb 算法 (generalized Hebbian algorithm, GHA) 包括 上 一 节 对 单个 神 
经 元 的 式 (8. 40) 的 算法 为 其 特殊 情况 〈 即 7 一 1)。 

要 对 该 算法 的 行为 进行 分 析 ， 将 式 (8. 80) 重 新 写成 以 下 的 形式 : 


F _ hg Ages 
Aw, ln) = pm; (Lai GQ) — wy (n)y;(n) ], : 1.9 4 (8. 81) 
J S= ASSO Ss 
其 中 ri Cn) A A et x(n) 的 第 i 个 分 量 的 修改 形式 ; 它 是 下 标 7 的 函数 ， 表 示 为 : 
xz: (n) = x;(n) 一 XW (n) y, (n) (8. 82) 
x(n) itn) wi(n) 
~y,(n) 


Wa (A ) 





一 -| (7) 


x(n) w, (n) 


x(n) 


输入 向 量 x(n) 
x(n) y(n) 
wAn + 1) w An) 





Xa (n) 
a) b) 


图 8.8 广义 Hebb 算法 的 信和 号 流 图 表示 : dD 式 (8.79) 的 图 ; b) 式 (8. 80) 到 式 (8. 81) 的 图 ， 其 
H ri (n) Al x) Cn) FACS. 82) 和 和 式 (8. 84) 定 义 


对 其 个 指定 的 神经 元 ;)， 式 (8. 81) 表示 的 算法 与 式 (8. 40) 表 示 的 算法 在 数学 形式 上 完全 相同 ， 


只 是 将 zx,(n) 变 成 了 式 (8. 82) 所 定义 的 修改 值 x; (n)。 可 以 进一步 将 公式 (8. 81) 重 新 写成 Hebb 
的 学 习 假 设 对 应 的 形式 ， 表 未 为 : 


Aw, Cn) = qy; n) zi (n) (8. 83) 
其 中 
x(n) = x; — wy (n) y;(n) (8. 84) 
因此 ， 注 意 到 
w; (n+ 1) = wy Cn) + Aw; (n) (8. 85) 
和 
w; Cn) = z'Lwa(nt+1)] (8. 86) 


* 


ww ai bbt.com TWOAOOO0 





第 8 章 主 分 最 分 析 . 249 


其 中 >” 是 单位 延迟 操作 符 ， 我 们 可 以 构建 广义 Hebb 算法 的 信号 流 图 ， 如 图 8. 8b 所 示 。 从 图 
中 看 出 只 要 其 公式 由 式 (8. 85) 描 述 ， 则 算法 适合 于 该 实现 的 局 部 形式 。 同 时 注意 在 图 8. 8b 的 
信和 号 流 图 中 表示 反馈 的 y;(n) 由 式 (8.79) 决 定 ; 它 的 信号 流 图 表示 在 图 8. 8a 给 出 。 

为 了 帮助 理解 广义 Hebb 算法 实际 上 如 何 操作 ,我们 首先 利用 和 矩阵 形式 重 写 式 (8. 81) 定 义 
的 算法 如 下 : 


Aw; (n) = my; (mx Cn) = i Cn) Ww; (n), 7 = T2 st (8. 87) 
其 中 wj (nn) 是 神经 元 j 的 突 触 权 值 向 量 ， 且 : | 
x'(n) = x(n) 一 Down) y) (8. 88) 


向 量 x (2z) 为 输入 向 量 x《n) 的 修正 形式 。 基 于 式 (8. 87) 给 出 的 表示 ， 我 们 得 到 下 面 的 观察 
结果 (Sanger,1989b): 

1. 对 于 图 8.7 的 前 馈 网 络 中 的 第 一 个 神经 元 ,我们 有 : 

jul: x(n) = x(n) 

在 这 种 情况 下 ， 广 义 Hebb 算法 相当 于 上 一 节 的 一 个 神经 元 的 式 (8.46)。 由 8.5 万 的 摘 
述 ， 我 们 已 经 知道 这 个 神经 元 将 发 现 输入 向 量 的 第 一 个 主 分量 。 

2， 对 于 图 8.7 中 的 第 2 个 神经 元 ， 我 们 写 出 : 

ae x (n) = x(n) — wi (n) yn) 

如 果 第 一 个 神经 元 已 经 收敛 于 第 一 个 主 分 量 ， 则 第 二 个 神经 元 看 到 一 个 输入 向 量 x (n)， 
从 其 中 已 经 去 掉 相 关 和 矩阵 R 的 第 一 个 特征 向 量 。 因 此 第 二 个 神经 元 抽取 的 是 x (7) 的 第 一 个 主 
分 量 ， 相 当 于 原来 输入 向 量 x(n) 的 第 二 个 主 分 量 。 

3. 对 于 第 3 个 神经 元 ， 我 们 写 出 : 

了 一 3: x(n) = x(n) — Wn) yn) — we (2) y: (Cr) 

假设 前 两 个 神经 元 已 经 分 别 收敛 于 第 一 个 和 第 二 个 主 分 量 ， 如 前 面 两 步 的 解释 一 样 。 第 三 
个 神经 元 的 输入 向 量 为 x (z) ， 从 其 中 已 经 去 掉 相 关 和 矩阵 R 的 前 两 个 特征 向 量 。 因 此 第 三 个 神 
经 元 抽取 的 是 x'(n) 的 第 一 个 主 分 量 ， 相 当 于 原来 输入 向 量 x(z) 的 第 三 个 主 分 量 。 

4. 对 于 图 (8.7) 的 前 馈 网 络 中 剩 下 的 神经 元 ， 继 续 执 行 上 述 过 程 。 显 然 根据 式 (8. 81) 的 三 
X Hebb 算法 训练 的 网 络 的 每 个 输出 代表 对 应 于 输入 向 量 相关 和 矩阵 的 某 一 特征 向 量 的 响应 ， 并 
且 这 些 输出 按 特征 值 递 减 排序 。 

这 个 计算 特征 向 量 的 方法 通称 为 Hotelling 的 紧缩 技术 (Kreyszig. 1988); 它 类 似 于 
Gram-Schmidt 正 交 化 过 程 CStrang,1980). 


收敛 性 考虑 
Win) = [w (nsw n) swi m] (8. 89) 
令 广义 Hebb 算法 的 学 习 率 参数 7 随 着 时 间 变 化 而 变化 ， 即 y(n)， 限 制 条 件 为 : 
lima) 一 0 E Dd) an) =% (8. 90) 
可 以 将 算法 重新 写成 矩阵 形式 : 
AW(n) = y(n) {y(n) x" Cn) — LTLyln)y (n) |Wn)} (8.91) 
其 中 


y(n) = W(n)x(n) 
其 中 LT["] 为 下 三 角 算 子 ， 它 把 矩阵 对 角 线 上 方 的 所 有 元 素 置 为 0， 从 而 使 矩阵 成 为 下 三 
角 和 矩阵。 在 这 些 条 件 下 以 及 采用 8.5 节 的 假设 ， 则 GHA 算法 收敛 性 证 明 的 过 程 与 上 节 关 于 最 
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大 特征 滤波 需 的 收 伍 证 明 相 似 。 因 此 有 下 面 的 定理 CSanger,1989b): 


te RAL BEE Wn) E a n= 时 随机 赋值 ， 则 式 (8.91) 所 描述 的 广义 Hebb 算法 以 概 
率 1 收敛 于 固定 点 ， 且 多 (2) 趋 于 一 个 和 矩阵， 该 矩阵 的 列 分 别 为 如 X1 输 入 向 量 的 了 义 ja 的 相 
关 短 阵 尺 的 前 ! 企 特征 向 量 ， 按 特征 值 的 降序 排列 。 


这 个 定理 的 实际 价值 在 于 ， 当 对 应 特征 值 互 不 相同 时 它 保证 广义 Hebb 算法 能 够 找到 相关 
RE R 的 前 /个 特征 向 量 。 同 样 重要 的 是 ， 我 们 不 需要 计算 相关 矩阵 R，R 的 前 /个 特征 向 量 
可 直接 由 输入 向 量 计算 。 特 别 是 如 果 输 入 空间 的 维 数 m 很 大 ， 而 要 求 与 R 最 大 的 /个 特征 值 
对 应 的 特征 向 其 的 数目 只 是 着 的 一 小 部 分 ， 则 可 以 节省 大 量 计算 。 

收敛 定理 是 用 时 变 学 习 率 参数 n(n) 表 示 的 。 实 际 上 ， 学 习 率 参数 只 能 选择 一 个 很 小 的 固 
定常 数 7， 这 样 才能 保证 在 7 阶 的 突 触 权 值 的 均 方 误差 意义 下 收敛 。 

在 Chatterjee (1998) P, WAAG. 91) 描 述 的 GHA 算法 的 收敛 性 质 。 那 里 给 出 的 分 
WRH., 增加 将 导致 收敛 速度 加 快 ， 同 时 渐进 均 方 误差 也 会 增 大 ; 这 在 直观 上 也 是 符合 的 。 
除 此 之 外 ， 该 论文 对 计算 的 精确 性 和 学 习 速 度 之 间 的 折 中 作 了 清楚 的 描述 。 
广义 Hebb 算法 的 最 优 性 

假设 在 极限 时 写成 ，; 

Aw;(n) ~0 E wn)—>q,， neo, 对 7 了 一 1)2，…，/ (8. 92) 
并 且 有 
Iwo | 一 1， 对 所 有 j (8. 93) 
那么 在 图 8.5 所 示 的 前 馈 网 络 中 ， 神经 元 的 突 触 权 值 向 量 的 极限 值 qi ,qz，"…,q: 表示 相关 
矩阵 R 的 前 :个 特征 值 对 应 的 好 一 化 特征 向 量 ， 按 特征 值 的 降序 排列 。 在 平衡 时 可 写 为 : 
q7 Rq; = Ae E (8. 94) 
HEP A DA >te AL. 

对 于 神经 元 了 的 输出 ， 我 们 有 极限 值 : 

lim yi(n) 一 X (n)q; = gq; x(n) (8. 95) 

令 Y;(n) 表 示 一 个 随机 变量 ， 其 实现 记 为 输出 y;(n)。 在 平衡 时 随机 变量 y; (nD) 和 y(n) 的 
互相 关 为 ， 

Ajo R=j 
0, RAY 
因此 ， 我 们 可 以 说 : 在 平衡 时 式 (8. 91) 的 广义 Hebb 算法 充当 输入 数据 的 特征 分 析 器 。 

令 %(n) 表 示 输 入 向 量 x(n) 的 特定 值 ， 对 于 这 个 值 ， 式 (8. 92) 
的 极限 条 件 对 j= 二 /一 1 是 满足 的 。 因 此 ， 从 式 (8.80) 的 矩阵 形式 ， 
我 们 发 现在 极限 形式 : 


lim ELY; (MY, (n) ] = ELF XX (rq, |] = qi Rg = (8. 96) 


q, 


! q, 
Rn) = X) y mA (8. 97) 

这 意味 着 给 定 两 组 值 ， 即 图 8. 6 的 前 馈 网 络 中 神经 元 的 突 触 权 
值 向 量 的 极限 值 qi oe ot 和 相应 的 输出 yia) syed oer, 
yn) ， 我 们 可 以 构造 输入 向 量 x(n) 的 线性 最 小 平方 佰 计 X(n)。 实 9 
际 上 ， 如 图 8.9 所 描绘 的 式 (8. 97) 的 公式 可 视 为 一 种 数据 重建 。 注 i 
意 根据 8. 4 Th, Re Sse ARA SS! A ene 

可 量 % 的 信号 流 
AIT X(n) IE 22. | 
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GHA 小 结 


广义 Hebb 算法 (GHA) 所 涉及 的 计算 很 简单 ， 可 以 总 结 如 下 

1. 在 时 间 n=l 时 ， 初 始 化 网 络 突 触 权 值 ww ， 使 其 取 一 个 小 的 随机 数 。 对 学 习 率 参数 7 IR 
给 一 个 小 的 正 数 。 

2. 对 于 n=1, j= 1,2, 和 ii 一 1,2,…,mm 计算 ， 


y; (n) == >) wy Cn) ri(n), 7 = 1,2,°**,2 
i=] 


i 2 
i = 1,2," m 
HP, rmx 输入 向 量 z(C2) 的 第 ;个 分 量 ，! 是 期 望 的 主 分 量 个 数 。 
3.7 增加 1(0z 一 2 十 1)， 转 到 第 2 步 ， 并 继续 执行 直到 w 达到 稳 态 值 。 对 较 大 的 n MWA j 
的 突 触 权 值 wi 收敛 于 输入 向 量 x Cn) AA EES 7 个 特征 值 对 应 特征 向 量 的 第 ; 个 分 量 。 


8.7 计算 机 实验 : 图 像 编 码 


通过 用 广义 Hebb 学 习 算 法 解决 图 像 编码 问题 完成 对 该 算法 的 讨论 。 
图 8. 10a 表示 用 于 训练 的 一 个 Lena 图 像 ， 该 图 像 强调 边缘 信息 。 它 被 数字 化 为 256 X 256 
的 图 像 ， 分 为 256 个 灰 度 等 级 。 利 用 一 个 具有 8 个 神经 元 的 单 层 线性 前 馈 网 络 对 图 像 编 码 ， 每 
个 神经 元 有 64 个 输入 。 利 用 8X8 的 非 重 到 图 像 块 训练 网 络 。 试 验 扫描 图 像 2 000 次 ， 学 习 率 
7 一 10 1。 
图 8. 10b 显示 的 8X8 的 掩 模 (mask) 表示 网 络 学 习 所 得 的 突 触 权 值 。8 个 掩 模 中 的 每 一 
个 为 与 某 个 特定 的 神经 元 相关 的 一 组 权 值 。 具 体 地 ， 兴 奋 〈 正 ) 的 权 值 用 白色 显示 ， 抑 制 
( 负 ) 的 权 什 用 黑色 表示 ， 灰 色 表 示 权 值 为 0。 在 我 们 的 表示 法 中 ， 掩 模 表 示 广 义 Hebb 算法 收 
BU AA 64X8 罕 触 权 值 矩阵 W ”的 列 。 
使 用 下 面 的 步骤 实现 对 图 像 编码 : 
。 图 像 的 每 个 8X8 块 与 图 8. 10b 所 示 的 8 个 掩 模 的 每 一 个 相 乘 ， 因 此 将 产生 8 个 系数 作 
为 图 像 编 码 ; 图 8. 10c 显示 没有 量化 的 基于 8 个 主 分 量 的 图 像 重建 。 
。 每 个 系数 一 律 被 量化 为 与 该 图 像 的 系数 方差 的 对 数 成 正比 的 比特 数 。 最 大 的 3 个 掩 模 
为 每 个 6 比特 ， 其 次 的 两 个 为 每 个 4 比特， 再 其 次 的 两 个 为 每 个 3 比特 ， 最 小 的 一 个 
为 2 比特 。 基 于 上 述 表 示 ， 需 要 34 比特 对 每 8X8 的 像素 块 编码 ， 每 个 像素 为 0. 53 比 
特 的 数据 率 。 
用 量化 系数 重建 图 像 ， 所 有 的 掩 模 都 用 它们 的 量化 系数 加 权 ， 然 后 合 加 重新 构成 的 每 块 图 
像 。 以 11 : 1 的 压缩 率 重建 的 图 像 如 图 8. 10d 所 示 。 


原始 图 像 权 值 使 用 8 个 分 量 11: 1 压缩 


Awy (n) = aly; Dr: m — y; n) > wu n(n) » 
k=l 





= : 2 av ves L 3) r 


图 8. 10 a) 用 于 图 像 编 码 试验 的 Lena 图 像 ，b) 8X8 的 掩 模 表 示 由 GHA 学 习 的 突 触 权 值 ; c) 利用 8 个 
无 量化 主 分 量 所 得 的 Lena 图 像 重建 ; d 用 量化 的 11 : 1 压缩 比 的 Lena 图 像 重 建 
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作为 第 一 个 图 像 的 变化 ， 下 面 我 们 对 图 8. lla 所 示 的 辣椒 图 片 应 用 广义 Hebb 算法 。 这 幅 图 像 
强调 纹理 信息 。 图 8. 11b 显示 用 前 面 描述 的 处 理 方式 由 网 络 学 得 的 突 触 权 值 的 8X8 掩 模 图 像 ; 注意 
它们 和 8. 10b 的 掩 模 的 区 别 。 图 8. lle 显示 没有 量化 的 基于 8 个 主 分 量 重建 的 海洋 图 像 。 为 了 研究 
量化 的 影响 ， 令 前 两 个 掩 模 的 输出 每 个 为 5 比特 ， 第 3 个 为 3 比特 ， 剩 下 的 5 个 每 个 为 2 比特 。 这 

需要 23 比特 为 每 个 8X8 像素 块 编码 ， 每 个 像素 块 的 比特 率 为 0. 36 比特 每 像素 。 图 8. 11d 显示 量 
化 后 重建 的 辣椒 图 像 ， 使 用 其 以 刚才 描述 的 方式 量化 的 掩 模 。 这 幅 图 像 的 压缩 比 为 12 : 1, 
原始 图 像 权 值 . ETIE 





c) 
| _ 利 用 Len 图 像 的 权 值 E 





d) e) r) 


图 8.11 a) 辣椒 图 像 ，b) 8X8 AO HERE A ws Hh MA TARR GHA 学 习 到 的 突 触 权 
fis c) 利用 8 个 优势 主 分 量 重 建 的 辣椒 图 像 : d) 利用 b) 中 的 掩 模 以 12 : 工 压 
缩 比重 建 的 ，e) 利用 图 8. 10b 中 的 掩 模 编 码 以 12: 1 压缩 比 量化 重建 的 辣椒 图 
像 ; D 复制 图 8. 10b 中 的 Lena R RAH) 


为 了 测试 广义 Hebb 算法 的 “ 泛 化 ”性 能 ， 最 后 用 图 8. 10b 的 掩 模 分 解 图 8. lla BRA RR 
椒 图 像 ， 然 后 用 与 产生 图 8. 11d 所 示 重 建 图 像 一 样 的 量化 过 程 。 这 个 图 像 重 建 结 果 如 图 8. 11e 
所 示 ， 压 缩 比 与 8. 11d 一 样 ， 也 为 12 : 1。 虽 然 在 8. 11d 中 的 重建 图 像 与 在 8. 11e 中 的 重建 图 
像 惊人 地 一 致 ， 但 可 以 看 到 图 8. 11d 比 图 8. lle 更 具有 真实 纹理 信息 而 更 少 块 状 现象 。 产 生 这 种 
情况 的 原因 在 于 网 络 的 权 值 。 为 了 能 够 把 对 辣椒 图 像 的 在 图 8. 11b 中 的 掩 模 ( 权 值 ) 与 对 Lena 
图 像 的 在 图 8. 10b 的 掩 模 进 行 相 比 ， 我 们 在 图 8. 11f 中 给 出 复制 ， 并 得 到 以 下 两 个 结论 : 

(1) 它们 的 前 4 个 突 触 权 值 很 相似 。 

(2) 然而 ， 对 Lena 图 像 而 言 ， 后 4 个 权 值 编码 边缘 信息 ， 但 在 辣椒 图 像 中 ， 这 4 个 权 值 
编码 纹理 信息 。 

因此 要 点 (2) 解释 了 在 图 像 〈e) 中 与 Cd) 相 比 的 辣椒 图 像 的 块 状 现象 。 


8.8 核 主 分 量 分 析 


到 目前 为 止 本 章 讨论 的 PCA 都 是 基于 输入 数据 的 二 阶 统计 量 〈 即 相关 性 );， 因此 ， 标 准 
PCA 被 称 为 线性 维 数 压缩 方法 。 然 而 ， 从 实际 的 角度 来 看 ， 我 们 需要 把 PCA 的 数据 压缩 能 力 
拓展 到 结构 中 包含 高 阶 统 计量 的 输入 数据 。 此 拓展 要 求 非 线 性 的 PCA 算法 。 为 了 此 目的 ， 
Scholkopf et al. (1998) 设计 了 一 种 叫做 核 PCA 的 非 线性 版 本 的 PCA 算法 。 这 个 新 的 工具 建 
立 在 第 6 章 中 所 讨论 的 再 生 核 Hilbert 空间 的 基础 之 上 。 

在 实现 过 程 中 ， 比 较 GHA 和 核 PCA 算法 具有 如 下 的 指导 意义 : 


ww ai bbt.com 000000 





第 8 章 主 分 量 分 析 . 253 


1. GHA 使 用 了 一 个 包含 输入 层 和 输出 层 的 简单 反馈 网 络 ; 这 个 网 络 全 部 由 线性 神经 元 组 成 。 
核 PCA 同样 使 用 一 个 反馈 网 络 ， 但 是 这 个 网 络 包含 了 一 个 非 线性 的 隐藏 层 和 一 个 线性 的 输出 层 。 
2. GHA 是 一 个 在 线 学 习 算 法 ， 而 核 PCA 是 一 个 批量 算法 。 
由 于 核 PCA 算法 关联 到 隐藏 层 ， 此 算法 遵循 第 6 章 中 在 设计 支持 向 量 机 中 所 讨论 的 理论 。 
关于 输出 层 ， 核 PCA 算法 遵循 标准 PCA 算法 的 维 数 压缩 理论 。 因 此 ， 其 名 为 “ 核 PCA”， 
核 PCA 算法 的 推导 
p: R”>R” ERA m 维 输入 空间 到 m 维特 征 空 间 的 非 线 性 映射 。 令 向 量 中 (x ) 表 示 输 
人 图 像 向 量 x; 在 特征 空间 的 特征 向 量 。 给 定 一 组 样本 {x;})X;， 我 们 有 一 组 相应 的 特征 向 量 
{中 (x;)) 羡 ;'。 因 此 我 们 可 以 在 特征 空间 定义 由 及 表示 的 外 积 形 式 为 中 C(x) 中 x) 的 如 下 mi Xm 
RER: 
R = >> (Cx;) 中 (x,) (8. 98) 
如 同 普通 的 PCA， 我 们 首先 要 做 的 就 是 确保 特征 向 量 { 中 (x;)) 汪 的 集合 具有 零 均值 : 
> 中 (xi ) = 0 
在 特征 空间 上 满足 这 个 条 件 比 在 输入 空间 上 更 加 困难 ; 在 习题 8. 15 中 我 们 描述 一 个 过 程 
来 满足 这 个 要 求 。 假 设 特征 向 量 已 经 聚集 于 中 心 ， 则 可 以 在 目前 情况 下 改变 式 (8. 14) SR: 
Rg = aq (8.99) 
h A hy HSE PE R ames 站 为 对 应 的 特征 向 量 。 我 们 注意 对 天 0 满足 式 (8. 99) 的 所 有 


特征 向 量 落 在 特征 向 量 { 中 (xz )) 六 :集合 生成 的 空间 中 。 因 此 存在 一 组 相应 的 系数 {fo) hh, AE 
们 可 号 成: 


q = yo d(x; ) | (8. 100) 

由 此 将 式 (8 98) ARCE. ORARE 99) 得 到 ， 
> Ya bx k(x x) = NA ide b(x;) (8. 101) 

其 中 k(x;, x BARE, 通过 特征 向 量 由 下 式 定义 : 
k(x; x) 一 中 (x) Px;) (8. 102) 


我 们 需要 进一步 计算 式 (8. 101) 以 完全 用 内 积 核 来 表示 此 关系 。 在 式 (8. 101) 等 号 的 两 边 左 
乘 以 转 置 向 量 中 〈x,) 得 : 


N N N 
> S ajk (x, ROK ,Xj) = NA Sy ask (x, »X;) 9 5s = 1 2 人 (8. 103) 


HH eaS’), kCx,+x;) 由 式 (8. 102) 和 定义 。 
现在 引入 下 面 两 个 矩阵 定义 : 
。 NXN BEREK, RARER. CHR ij NORKA ARIZ kx); 
。 NX1 向 量 a， 第 7 个 元 素 为 参数 aj。 
因此 ， 可 以 将 式 (8. 103) 写 成 紧凑 的 矩阵 形式 : 
Kw = Nike (8. 104) 
其 中 矩阵 的 平方 K 表示 K 自身 相 乘 。 因 为 式 (8.104) 两 端 均 有 KK， 特征 值 问 题 感 兴趣 的 全 部 
解 同样 可 用 更 为 简单 的 特征 值 问 题 表示 : 
Ka = Naa (8. 105) 
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ee “ers 之 AnN Fe” KE K 的 特征 值 ， Bp 
a = Ni 一 12…N | (8. 106) 
其 中 7 EHRE A, 的 第 7 个 特征 值 。 从 而 式 (8. 105) 变 成 如 下 的 标准 形式 : 
Ka = ia (8. 107) 
其 中 系数 向 量 g UT KOREA 的 对 应 特征 向 量 的 作用 。 系 数 向 量 & 是 归 一 化 的 ， 因 
为 要 求 将 相关 矩阵 R 的 特征 向 量 9 妇 一 化 为 单位 长 度 ， 即 
Jq 一 1， 当 k=1,2,.,/ (8. 108) 
WR RPE A k ARERR HESI, A. ARE K 的 特征 值 的 最 小 非 零 值 。 利 用 式 (8. 100) 和 
式 (8. 107) 可 以 得 到 式 (8. 108) 等 价 的 归 一 化 条 件 : 


wa, = = r = 1,25-"°,/ (8. 109) 
È 


为 了 抽出 主 分 量 ， 需 要 计算 特征 向 量 Q 在 特征 空间 上 的 投影 如 下 ， 
qi 中 (x) = Sans Pa 600 = Dansk D, k= 1,2,.,l (8. 110) 


其 中 向 量 x 是 “测试 ” 点 ， ,是 矩阵 K $k 个 特征 值 对 应 NTE eo 的 第 7 个 系数 。 式 
(8. 110) 的 投影 是 定义 在 m 维 的 特征 空间 上 的 非 线性 主 分 量 (nonlinear principal component) 。 
图 8.12 说 明 核 PCA 的 基本 思想 ， 其 中 特征 空间 经 过 变换 中 (x) 和 输入 空间 是 非 线 性 相关 
的 。 图 中 的 a 和 部 分 分 别称 为 输入 空间 和 特征 空间 。 图 8. 12b 中 的 轮廓 线 表 示 在 主 特征 向 量 
上 的 投影 为 常数 的 线 ， 特 征 向 量 用 虚线 箭头 表示 。 在 此 图 中 ， 假设 变换 中 (x) 用 下 面 的 方式 选 
择 : 在 特征 空间 中 数据 点 诱导 的 像 聚 集 在 特征 问 量 汽 线 。 图 8. 12a 显示 输入 空间 上 对 应 特征 空 
间 的 线性 等 值 线 的 非 线 性 等 值 线 。 注 意 我 们 有 意 没 有 在 输入 空间 上 画 特 征 向 量 的 原 像 ， 因 为 它 
甚至 可 能 不 存在 (Scholkopf 等 ，1998 ) 。 
按照 Mercer 定理 定义 的 内 积 核 ， 我 们 在 m 维特 征 空 间 上 执行 普通 的 PCA， 维 数 m 是 设 
HEM. 8.4 节 描 述 的 普通 PCA 的 所 有 性 质 对 核 PCA 均 适 用 。 尤 其 是 ， 核 PCA 在 特征 空间 
上 是 线性 的 ， 但 在 输入 空间 上 是 非 线 性 的 。 因 此 ， 所 有 可 用 普通 PCA 进行 特征 提取 和 数据 压 
| 缩 的 领域 ， 进 行 非 线 性 扩展 PCA 也 有 意义 。 
在 第 6 章 我 们 提出 了 三 种 构造 内 积 核 的 方法 ， 它 们 是 基于 利用 多 项 式 、 径 向 基 吗 数 和 双 曲 取 数 ， 
参见 表 6. 1。 对 给 定 的 任务 ， 如 何 选 择 最 适合 的 核 〈 即 恰当 的 特征 空间 ) 是 一 个 有 待 解决 的 问题 。 
Ai 输入 (数据 ) 





图 8.12 # PCA 图 例 。a) 二 维 输入 空间 ， 显 示 一 组 数据 点 ; b 二 维特 征 空 间 ， 显 示 数 据点 在 一 个 主 特 
征 向 量 附 近 育 集 的 诱导 像 。 在 b) 中 均匀 排列 的 虚线 表示 在 特征 向 量 上 投影 为 常数 的 等 值 线 ; 它 
们 在 输入 空间 中 的 对 应 等 值 线 是 非 线性 的 
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核 主 分 量 分 析 小 结 
1. BEV A (x hi, HE NXN BRR KK 二 (k(x; ,x;);， 其 中 
k(x; x) = Q (x;) 中 (xi )， inf = 1,2, N 
其 中 我 们 假定 已 经 进行 了 数据 预 处 理 过 程 ， 使 得 训练 样本 的 所 有 特征 向 量 都 满足 零 均 值 条 件 ， 即 : 


] N 
六 之 Cx; ) = 0 


2. 解 特征 值 问题 : 
Ka = AQ 
其 中 和 为 K 的 特征 值 ，& 为 对 应 的 特征 向 量 。 
3. 归 一 化 所 计算 的 特征 值 ， 这 要 求 
T 1 
or O, = 和， Rs bey sind 
Hop A, 是 矩阵 K 最 小 的 非 零 特征 值 ， 假 设 特征 值 是 按 降 序 排列 的 。 


4. 为 了 抽取 测试 点 x WEDE, WARK: 
ap 一 qz (x) 一 Sank Ox XD) r 一 Lig 2508" oh 


其 中 a,,; 是 特征 向 量 a, 的 第 7 个 元 素 。 
例 3 核 PCA 算法 的 事例 试验 
要 对 核 PCA 的 运行 有 一 个 直观 的 了 解 ， 图 8. 13 显示 一 个 简单 的 实验 结果 (Sch6lkopf F, 
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“I 0 ! 1 0 1 
图 8.13 说 明 核 PCA 的 二 维 示 例 。 从 左 到 右 ， 核 多 项 式 的 次 数 d=1, 2, 3, 4. AEAT, Œ 
示 特 征 空 间 中 的 前 面 三 个 特征 向 量 。 第 一 列 对 应 普通 的 PCA， 后 三 列 对 应 多 项 式 次 数 

d=2, 3, 4 的 核 PCA (此 图 的 复制 经 Klaus-Robert Muller 博士 允许 ) 
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1998) 。 二 维 数据 由 分 量 xz! 和 x; 组 成 ， 在 这 个 试验 中 用 下 述 方法 产生 ; zi 的 值 在 区 间 [一 1， 
1] EWA; za 的 值 与 zx 非 线 性 相关 ， 由 如 下 公式 确定 : 
x, = r? + vu 

其 中 wv 是 均值 为 0 方差 为 0.04 的 附加 高 斯 噪声 。 

图 8. 13 所 示 的 核 PCA 的 结果 可 以 由 如 下 的 核 多 项 式 得 到 ， 

k(xX,xX) =x ks d = 1,2,3,4 

其 中 d=1 对 应 线性 PCA, d=2, 3, 4 对 应 于 核 PCA。 线 性 PCA 如 图 8. 13 左面 所 示 ， 因 为 
输入 空间 为 二 维 ， 仅 产生 两 个 特征 向 量 。 相 反 ， 核 PCA 允许 抽出 高 阶 分 量 ， 结 果 如 图 8. 13 中 
的 2、3、4 列 所 示 ， 分 别 与 4 二 2，3，4 对 应 。 图 中 每 部 分 显示 的 等 值 线 (在 线性 PCA 情形 时 
除去 零 特征 值 ) 表示 常数 主 值 〈 即 在 与 特征 值 相关 联 的 特征 回 量 上 的 投影 为 常数 )。 

根据 图 8. 13 显示 的 结果 可 得 到 如 下 结论 : 

。 如 所 期 望 的 ， 线 性 PCA 不 能 对 非 线 性 输入 数据 提供 足够 的 描述 。 

。 在 所 有 情况 下 ， 第 一 个 主 分 量 沿 着 构成 输入 数据 的 抛物 线 单调 变化 。 

。 在 核 PCA 中 ， 对 不 同 的 多 项 式 次 数 4， 第 2 和 第 3 个 主 分 量 展示 一 定 的 相似 性 。 

。 在 多 项 式 次 数 4 二 2 情况 下 ， 核 PCA 的 第 3 个 主 分 量 显现 出 找到 加 性 高 斯 噪声 v 的 方 

差 。 消 除 这 个 主 分 量 的 影响 ， 在 效果 上 实际 是 执行 某 种 形式 的 噪声 消除 。 = 


8.9 自然 图 像 编 码 中 的 基本 问题 


在 编码 自然 图 像 的 过 程 中 ， 有 两 个 基本 的 策略 。 这 两 个 策略 都 试图 发 觉 图 像 的 潜在 结构 中 
的 内 在 宛 余 消息 ， 以 对 潜在 图 像 进 行 有 效 的 表示 。 这 两 个 策略 是 : 

1. 压缩 编码 。 在 这 个 编码 策略 中 ， 图 像 变换 成 缩减 数量 的 向 量 表 示 ， 并 且 编 码 受 到 规定 
的 均 方 根 误差 的 损失 。 主 分 量 分 析 就 是 压缩 编码 的 一 个 常见 例子 。 

2. 稀疏 分 布 编码 。 在 此 第 二 个 编码 策略 中 ， 自 然 图 像 的 维 数 并 不 约 减 。 输 入 图 像 中 的 元 
余 信 息 以 一 种 独特 的 方式 变换 ， 使 得 其 与 虚拟 系统 中 神经 元 的 激活 模式 的 元 余 信 息 相 匹配 。 

在 经 典 文章 中 (Field，1994) ， 对 这 两 种 编码 方法 进行 了 对 比 。 特 别 地 ， 我 们 指出 稀 朴 分 
布 编码 的 特征 可 在 自然 图 像 潜在 分 布 的 四 阶 答 〈 即 kurtosis) PRAL PCA 是 一 个 线性 编码 方 
法 ,依靠 其 函数 的 二 阶 统计 量 。 因 此 它 能 够 获得 自然 图 像 的 四 阶 统计 ， 这 对 于 一 个 有 效 的 编码 
策略 是 十 分 重要 的 。 在 Field 的 文章 中 提 到 了 另 一 个 关键 的 问题 ， 就 是 形 如 小 波 变换 Hii 
分 布 编码 是 有 效 的 ， 因 为 对 自然 图 像 编 码 时 ， 所 得 到 的 直方 图 呈现 出 高 的 峰 度 。 另 外 ， 此 文中 
指出 ， 对 于 一 阶 通 近来 说 ， 自 然 图 像 的 编码 可 以 看 作 自 相似 局 部 函数 的 和 《 即 小 波 变 换 的 逆 过 
程 )。 

现在 ， 大 都 认为 自然 图 像 泛 化 的 过 程 是 非 线 性 的 (Ruderman，1997)。 其 中 一 个 重要 的 因 
素 是 闭合 ， 这 本 身 是 非 线性 的 。 在 自然 图 像 中 的 闭合 图 像 轮 廓 有 四 个 主要 的 来 源 (Richards， 
1998): 

。 外 部 闭合 边 ; 

。 RARE: 

。 阴影 或 亮度 效果 ; 

。 表面 标记 或 纹理 。 

所 有 这 四 种 图 像 轮 廊 依 各 自 的 方式 提供 了 关于 表面 形状 的 信息 。 然 而 ， 关 于 推断 哪 一 类 边 
构造 了 图 像 轮廓 的 规则 仍然 有 很 大 的 不 同 。 这 给 自然 图 像 编 码 和 解码 的 研究 市 来 了 挑战 。 

为 了 获得 自然 图 像 的 高 阶 统计 信息 ， 显 然 ， 我 们 必须 把 非 线 性 引入 PCA’. EP RMN 
中 ， 我 们 讨论 一 个 能 够 实现 此 目标 的 有 较 高 计算 效率 的 自 适应 方法 。 
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8.10 核 Hebb 算法 


在 前 面 几 节 的 讨论 中 ， 我 们 知道 : 
高 阶 统计 信息 对 于 自然 图 像 的 结构 编码 ORE) 是 特别 重要 的 。 
另外 ， 自 然 图 像 十 分 复杂 ， 在 这 种 情况 下 ， 包 含 在 自然 图 像 数 字 表 示 中 的 像素 的 数量 会 很 
高 ;这 些 像 素 的 数量 定义 了 图 像 空间 的 维 数 ， 其 中 每 个 样本 图 像 仅 被 表示 成 一 个 握 。 因 此 ， 如 
果 一 个 机 器 要 学 习 自 然 图 像 模型 ， 那 么 需要 用 大 量 的 样本 来 训练 此 机 器 。 
现在 ， 回 想到 核 PCA 是 一 个 批量 学 习 算法 ， 我们 发 现 对 于 核算 阵 的 存储 和 操作 达到 NN 复 
杂 度 ， 其 中 N 是 训练 样本 的 数量 。 因 此 ， 当 需要 模拟 自然 图 像 的 时 候 ， 核 PCA 算法 的 时 间 复 
杂 度 是 极 大 的 。 . 
为 了 降低 计算 复杂 度 ，Kim 等 (2005) 利用 广义 Hebb 算法 的 非 监 督 在 线 学 习 能 力 ， 设 计 
了 迭代 算法 ， 计 算 核 PCA。 这 个 算法 ， 叫 核 Hebb 算法 (KHA)， 能 够 在 线性 存储 复杂 度 的 条 
件 下 计算 核 主 分 量 。 不 同 于 核 PCA，KHA 能 够 适应 于 非 监 督 的 大 规模 学 习 问 题 。 
KHA 的 推导 
考虑 训练 样本 {x;}X,， 我 们 可 以 推导 GHA 的 更 新 规则 ， 在 特征 空间 中 ， 如 式 (8. 79) 和 式 
(8. 80) 所 示 ， 
yj;(n) = wi (n) P(xCn)), jJ = 1,2, (8. 111) 
和 
Aw; (n) = q| y m) ob(x(n)) — y(n) way | j = l,2,**,} (8.112) 
我 们 选择 p EARE Rk 的 下 标 ， 以 避免 与 核 的 标记 & 混淆 。 与 前 面相 同 ，Aw DA x(n), 
分 别 在 时 间 n 时 ， 对 权 值 向 量 的 更 新 和 对 输入 向 量 的 更 新 。7 是 学 习 参 数 , 下 标 i 表示 输出 的 
数量 。 因 为 特征 空间 的 高 维 数 ， 我 们 可 能 无 法 直接 使 用 式 (8. 112) 。 然 而 ， 从 核 PCA 方法 中 ， 
我 们 得 知 w 可 以 由 在 特征 空间 中 的 训练 样本 展开 ， 即 ， 


wi 一 (Cx) (8. 113) 
其 中 。 是 展开 系数 。 使 用 式 (8. 111) 和 式 (8. 112) 中 的 公式 ， 可 以 得 到 如 下 两 个 更 新 规则 ， 
yi Ca) = ST a(n) 中 (x;) b(x(n)), j=l (8. 114) 
P a 
> Aa Cn) px) = q| ym) 中 (x(7z) ) -y Sy Das pa) |, zaban 
: _ (8. 115) 


引 人 Mercer 核 的 定义 ， 有 
h(x; .x(n)) = O'(x,) O(x(n)), i=1,2,.…,N 
另外 ， 我 们 可 以 规定 如 下 两 种 可 能 的 条 件 : 
CI) Hx =x 时 ， 即 训练 集中 输入 向 量 x(2) 的 下 标 是 7。 
Ci) Æ xm Ax 时， 即 条 件 〈( i ) 不 满足 。 
通过 去 除 式 (8. 115) 中 外 层 关于 下 标 i 的 求 和 ， 得 到 如 下 的 关于 系数 fai} 的 更 新 规则 Kim 
等 ，2005): 


ym 一 Yla Mk, j=1,2,,l (8. 116) 
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和 


Pi — qi) D as Dy nd) WH x(n) = x, 
Aaz (n) = a. (8.117) 
一 my; (a) > en Ca) yp Cn), 如 果 x(n) Æ x; 
p=l 


Hp j=—1,2,°,J 且 ; 一 1,2N。 如 同 其 他 的 核 方 法 ， 我 们 在 再 生 核 Hilbert 空间 
(RKHS) 中 实现 KHA, 

对 于 核 PCA， 人 必须 保证 核 问 量 集 (中 (xx ) ) 六 BERII. 习题 8.15 对 于 在 批量 算法 中 的 
问题 给 出 了 一 种 解决 办 法 。 对 于 如 KHA 之 类 的 在 线 学 习 算 法 ， 必 须 使 用 一 个 滑动 的 均值 去 适 
应 输入 分 布 中 的 变化 。 

另 一 个 就 是 关于 KHA 收敛 性 的 问题 。 因 为 KHA 是 由 GHA 推导 出 来 的 ， 我们 可 以 说 ， 
鉴于 8.6 节 中 关于 收敛 性 的 讨论 ， 我 们 得 知 在 学 习 参 数 n 足够 小 的 前 提 下 ，KHA 是 局 部 收 
SY o 
案例 研究 : 多 块 图 像 去 噪 

当 说 到 复杂 图 像 时 ， 一 个 经 常 考虑 的 例子 就 是 从 自然 场景 图 像 中 取 块 。 当 图 像 具 有 多 个 决 
时 ， 对 这 样 的 图 像 建 模 就 是 极 有 挑战 性 的 工作 。 事 实 上 ， 在 8.7 节 中 讨论 到 的 Lena RRMA 
有 多 个 块 ， 因 此 作为 图 像 去 噪 学 习 中 的 基本 实例 。 

这 个 实例 学 习 由 Kim 等 给 出 (2005)’, HIE KHA 与 其 余 6 种 去 曲 方 法 比较 。 特 别 地 ， 两 
种 不 同 的 Lena 图 像 被 构造 : 

(1) 在 256X256 的 Lena 图 像 中 加 入 白 高 斯 噪声 ， 产 生 了 7.72dqB WRH (SNR). 

(2) 在 同样 的 图 像 中 加 入 椒盐 噪声 ， 制 造 出 4. 92dB 的 信 噪 比 。 

对 于 这 两 个 图 像 中 的 每 一 个 ， 我 们 在 两 个 像素 正则 区 间 取 12X12 HARE RR. 

我 们 基于 核 PCA 算法 ， 假 定 高 斯 核 的 宽度 为 1051), 使 用 KHA 算法 (学习 参数 设立 为 
7 一 0.05) 对 通过 带 噪 声 的 Lena 图 像 数据 大 约 800 次 扫描 得 到 的 样本 建 模 。 通 过 变化 的 参数 ~， 
使 用 每 一 个 核 PCA 模型 中 的 前 个 主 分 量 去 品 重 构 原 始 Lena 图 像 。 

为 了 方便 比较 ， 我 们 使 用 均值 过 滤 方 法 * Matlab 中 的 Wiener HIA, ， 基 于 小 波 的 方法 
和 线性 PCA 算法 来 同 去 噪 核 PCA 作 比 较 。 另 外 ， 以 下 两 种 方法 被 用 来 作 比 较 : 

。 Pizurica 和 Philips 算法 (Pizurica and Philips，2006)， 使 用 附加 高 斯 噪声 估计 概率 ， 

此 概率 由 小 波 子 空间 中 的 给 定 系 数 包 含 的 无 品 分 量 表 出 。 
。 Choi 和 Baraniuk 算法 (Choi and Baraniuk，1999)， 通 过 把 噪声 信号 投影 到 小 波 域 的 
Besov 空间 "” ， 获 得 原始 信和 号 的 佑 计 。 

实验 结果 在 图 8. 14 和 图 8. 15 中 给 出 ， 以 下 所 有 观察 都 由 Kim 等 (2005) 给 出 : 

(1) 对 于 图 8. 14 中 附加 高 斯 白 噪声 (AWGN) 情况 下 ， 由 Pizurica 和 Philips 算法 得 到 的 
较 好 去 品 效 果 和 图 8. 15 中 附加 椒盐 噪声 情况 下 ， 由 均值 过 滤 法 得 到 的 较 好 去 品 效 果 可 归 因 于 
使 用 了 相关 噪声 源 的 统计 信息 这 一 先 验 知识 。 

(2) 在 另外 一 种 情况 下 ( 即 Pizurica 和 Philips 算法 在 附加 椒盐 噪声 情况 下 ， 以 及 均值 过 
滤 法 在 附加 高 斯 白 噪 声 情况 下 ) ， 这 两 种 去 噪 方法 的 性 能 有 所 下 降 ， 这 证 明了 依赖 于 先 验 知 识 
的 风险 。 

(3) 如 图 8.14 和 图 8. 15 所 示 ，KHA 算法 对 于 每 种 噪声 效果 都 很 好 ， 这 个 结果 说 明 如 果 
没有 关于 附加 了 噪声 特点 的 信息 时 ，KHA 算法 是 一 个 很 好 的 选择 。 
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g) h) i) 


图 8. 14 对 混 人 高 斯 噪声 的 图 像 去 品 。a) 原始 Lena 图 像 ;，b) 加 入 噪声 的 图 像 ，c) 均值 过 滤 
Æ; d Matlab 中 的 小 波 去 噪 法 ; e) Matlab 中 的 Wiener 过 滤 法 ; f) Choi 和 Barani- 
uk 算法 ; g) Pizurica 和 Philips 算法 ; hb) PCACr=20); D) KHACr=40) (此 图 片 的 ， 
复制 得 到 了 K. L Kim 博士 的 允许 ) 








f) 


d) 
图 8.15 对 混 人 椒盐 噪声 的 图 像 去 噪 。a) 原始 Lena 图 像 ，b) 加 入 噪声 的 图 像 ， c〉 HE 


法 ; d Matlab 中 的 小 波 去 噪 法 ; e) Matlab 中 的 Wiener WR; f) Choi Al Baraniuk 
算法 ; g) Pizurica 和 Philips 算法 ; h)PCA(r 一 20); D KHACr=20) (此 图 片 的 复制 


得 到 了 K. 1. Kim 博士 的 允许 ) 
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h) 


图 8.15 ( 续 ) 


最 后 ，KHA 算法 是 一 个 在 线 非 监 督学 习 算法 ， 因 此 具有 两 个 额外 的 优点 : 

© 作为 一 个 在 线 学 习 算 法 ,计算 复杂 度 较 小 ，。 

。 作为 非 监督 算法 ， 不 需要 类 标 信息 ， 避 免 了 在 监督 学 习 中 收集 类 标 所 耗费 的 时 间 和 
精力 。 | 


8.11 小 结 和 讨论 


在 非 监 督学 习 中 一 个 重要 的 问题 就 是 ， 如 何 为 学 习 过 程 设计 一 个 性 能 评价 或 代价 函数 来 
产生 一 个 起 到 监督 作用 的 内 部 信号， 使 得 网 络 能 够 预测 或 重建 其 本 身 的 输入 。 在 主 分 量 分 析 
中 ， 代 价 注 数 是 误差 向 量 的 均 方 值 ， 这 里 误差 向 量 定义 为 输入 向 量 (假定 为 零 均 值 ) 和 重 构 
向 量 之 间 的 差别 。 我 们 的 目标 是 在 如 下 两 个 正 交 约束 下 关于 一 组 自 适 应 的 系数 最 小 化 该 代价 
PR BY : 

C1) 规范 化 ， 即 每 个 特征 向 量 都 是 单位 长 度 的 ; 

(2) 正 交 性 ， 即 任意 两 个 不 同 的 特征 向 量 相互 正 交 。 

习题 8. 3 研究 了 用 此 方法 来 推导 PCA， 作 为 8.4 节 中 扰动 理论 的 补充 。 

维 数 约 简 

PCA 算法 最 为 重要 的 应 用 就 是 维 数 约 简 ， 其 内 容 在 式 (8. 28) 和 式 (8. 29) 中 总 结 了 。 为 了 
讨论 的 方便 ， 我 们 在 此 处 重 写 这 两 个 等 式 。 

(1) 数据 表示 。 给 定 一 个 m 维 的 数据 向 量 x， 式 (8. 29) 指 出 x 可 以 由 一 个 7 维 的 主 分 量 向 
量 表示 : 


al qi 
— dz ip A I< a 
a; qi 
其 中 q 是 如 下 的 mXm 协 方差 年 阵 的 第 i 个 特征 向 量 。 
R = EL xx’ | 


a; 是 向 量 a 的 第 i 个 分 量 ， 是 数据 向 量 x 在 第 i 个 特征 向 量 q: LMR. WMR Sm, Ns 
得 到 的 向 量 a 是 原始 数据 向 量 x 的 旋转 形式 ; 且 它 们 之 间 实 质 性 的 不 同 在 于 a 有 无 关 的 分 量 ， 
而 xX 没 有。 如 果 !<m， 那 么 仅 保留 一 个 特征 向 量 的 子 集 ， 以 用 来 近似 地 表示 数据 。 在 这 种 情 
况 下 ， 我 们 说 是 维 数 约 简 。 

(2) 数据 重 构 。 给 定 主 分 量 向 量 a， 式 (8. 28) 指 出 原始 数据 x 可 以 由 特征 向 量 线性 组 合 的 
形式 被 重 构成 
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其 中 ai saz ,sa 是 分 量 系 数 。 这 里 ， 如 果 L=m, 则 重 构 是 准确 的 ; 而 如 果 <m, 那么 重 构 是 
近似 的 。 误 差 向 量 : 

e=x-x 
满足 正 交 性 的 原则 ， 即 误差 向 量 e 与 估计 值 x* 正 交 。 因 此 ， 我 们 说 估计 值 #s 是 最 小 均 方 误差 意义 
下 的 最 优 估计 值 (Haykin，2002)。 确 定 约 简 维 数 /的 一 种 最 佳 方法 就 是 在 第 2 章 中 讨论 的 最 
小 描述 长 度 (MDL) 准则 。 

PCA 的 一 个 在 维 数 约 简 下 的 应 用 是 去 骂 。 在 这 个 应 用 中 ， 数 据 碳 量 x 由 信号 分 量 s 和 附加 
高 斯 白 品 声 v 组 成 。 我 们 的 目标 就 是 在 最 优 意 义 下 最 小 化 噪声 的 影响 。 用 史 表 示 向 量 x 所 在 的 
m HERE. BRE x, PCA 把 空间 吧 分 成 两 个 互相 正 交 的 子 空 间 : 

。 信号 子 空间 5。 信 号 分 量 的 估计 值 ， 由 $ 涉 示 ，、 位 于 此 空间 S 中 。 估 计 值 $ 与 * 在 维 数 约 简 

中 起 到 相似 的 作用 。 
。 噪声 子 空 间 NM。 了 噪声 分 量 的 估计 值 ， 由 袁 示 ， 位 于 此 空间 N 中 。 人 和 估计 值 * 与 e 在 维 数 约 
简 中 起 到 相似 的 作用 。 

PCA 的 另外 一 个 应 用 是 数据 压缩 。 在 此 应 用 中 ， 我们 的 目标 是 尽 可 能 多 地 保存 输入 数据 
集中 的 信息 。 给 定 一 个 m 维 的 数据 向 量 x，PCA 通过 对 输入 数据 空间 进行 子 空间 分 解 实现 此 
目标 。 此 输入 数据 空间 的 前 i 个 (小 于 mr》 主 分 量 提 供 一 个 线性 映射 。 此 映射 在 最 小 均 方 误差 
意义 下 是 最 优 的 ， 其 对 原始 数据 空间 进行 重 构 。 另 外 ， 基 于 前 i 个 (小 于 m〉 主 分 量 的 表示 比 
随意 的 子 空间 表示 要 好 ， 因 为 输入 空间 的 主 分 量 是 按 特征 值 大 小 降序 排列 的 ， 或 者 说 按 方差 大 
小 降序 排列 的 。 相 应 地 ， 如 在 8.7 节 中 的 图 像 编码 实例 学 习 中 讨论 的 那样 ， 我 们 可 以 通过 使 用 
最 大 数值 精度 编码 输入 数据 空间 第 一 个 主 分量 ， 而 用 较 小 的 精度 编码 剩 下 的 /一 1 个 分 量 ， 来 
最 优 地 实现 基于 主 分 量 分 析 的 数据 压缩 。 
关于 无 监督 学 习 的 两 个 观点 

1. 自 底 向 上 的 观点 。 局 部 性 的 概念 在 8. 2 节 讨 论 的 自 组 织 的 前 三 个 原则 〈 即 自 增强 原则 、 
竞争 原则 和 合作 原则 ) 中 起 到 重要 的 作用 。 这 三 个 原则 代表 自 下 而 上 学 习 ， 其 动机 是 形成 一 个 
学 习 过 程 模型 。 这 样 一 个 建 模 方法 在 无 监督 神经 网 络 中 已 用 到 过 。 比 如 8.5 WM 8.6 aA 
论 的 Hebb 最 大 特征 过 滤 算 法 和 广义 Hebb 算法 。 

另 一 方面 ， 在 导言 里 我 们 指出 ， 机 器 学 习 中 不 强调 局 部 性 。 这 一 缺乏 自 组 织 的 特性 反 过 来 
意味 着 非 监 督 机 器 学 习 中 自 底 向 上 的 计算 智能 不 起 作用 。 

2. 自 顶 向 下 的 观点 。 由 通过 自 组 织 原 则 对 无 监督 学 习 问 题 建 模 ， 我 们 转向 自 适 应 参数 
( 即 权 值 ) 的 角度 分 析 问 题 。 具 体 地 ， 给 定 一 个 无 类 标 样 本 ， 我 们 在 学 习 过 程 中 施加 的 约束 下 
最 小 化 代价 函数 。 第 二 阶段 蕴含 的 理论 就 是 自 顶 向 下 ， 就 如 同 神 经 网 络 一 样 。 最 大 特征 过 滤 算 
法 和 广义 Hebb 算法 的 迭代 公式 就 是 无 监督 学 习 此 观点 的 实例 。 

另 一 方面 ， 机 器 学 习 限 制 无 监督 学 习 其 本 身 为 自 顶 向 下 的 过 程 。 为 了 弥补 对 自 组 织 的 强 再 
的 缺乏 ， 在 统计 机 器 学 习 中 分 析 工 具 已 经 被 有 效 地 使 用 。 这 个 无 监督 学 习 方 法 的 例子 在 8.9 市 
中 通过 核 PCA 的 方式 给 出 。 

不 论 无 监督 学 习 如 何 实现 ， 它 都 是 自 顶 向 下 的 。 其 输入 数据 所 包含 的 内 在 结构 信息 〈 自 组 
织 原则 4) 可 以 被 探查 到 。 
神经 生物 的 核算 法 

核算 法 ， 比 如 说 核 PCA， 是 比较 节省 计算 时 间 的 。 这 是 因为 这 些 算 法 有 能 力 处 理 包 售 在 
输入 数据 中 的 特定 的 高 阶 信息 。 但 是 ， 典 型 地 ， 这 些 算法 都 遇 到 维 数 灾 的 问题 。 即 此 类 问题 的 
计算 复杂 度 〈 由 于 各 种 各 样 的 原因 ) 随 着 输入 数据 空间 的 维 数 指 数 级 增长 。 

例如 ,考虑 图 像 压 缩 的 问题 。 不 幸 的 是 ， 原 始 版 本 的 核 PCA 的 计算 复杂 度 使 得 其 在 实际 
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图 像 问 题 (如 人 脸 和 自然 图 像 )》 中 应 用 受到 局 限 。 然 而 ， 通 过 对 广义 Hebb 算法 (GHA) 核 
化 ， 即 在 8. 10 节 中 讨论 的 核 Hebb 算法 (KHA)， 我们 得 到 一 个 迭代 的 无 监督 学 习 算 法 ,可 
以 在 线性 计算 复杂 度 的 条 件 下 估计 核 主 分 量 。 正 如 8. 10 节 中 谈论 到 的 图 像 去 噪 问 题 ， 证 明了 
此 类 非 监 督 算法 的 性 能 可 以 与 监督 学 习 算 法 的 性 能 相 比 。 因 此 ， 我 们 可 以 说 ， 通 过 使 用 迭代 的 
核 化 PCA 算法 ， 我 们 不 仅 在 某 种 意义 下 避免 了 维 数 灾 的 问题 ， 而 且 在 仅 使 用 无 类 标 数 据 的 情 
况 下 ， 就 解决 了 图 像 去 噪 问题 。 

从 此 讨论 中 ， 我们 得 到 一 个 有 效 的 信息 : 

通过 核 化 (基于 统计 学 习 理 论 ) 神经 生物 非 监 督 信息 算法 ， 我 们 可 以 得 到 许多 有 用 的 
东西 。 

在 下 一 章 中 ， 关 于 神经 生物 学 导出 的 自 组 织 映射 网 络 ， 我们 将 描述 与 本 章 不 同 的 男 一 类 核 
化 的 应 用 。 


注释 和 参考 文献 


1. 在 多 元 分 析 中 ， 主 分 量 分 析 (PCA) 或 许 是 最 早 的 和 最 有 名 的 方法 (Jollife,1986; Preisendorfer,1988) 。 最 
时 由 Pearson (1901) 引入 ， 在 生物 学 背景 下 他 用 它 来 重建 线性 回归 分 析 的 新 形式 。 后 来 Hotelling (1933) 
在 做 心理 测验 时 将 它 发 展 。Karhunen (1947) 在 概率 论 框架 下 再 次 独立 地 讨论 了 它 ; 随后 被 Loéve (1963) 
推广 。 

2. 突 触 增强 和 抑制 。 我 们 认识 到 正 相 关 的 行为 有 助 于 突 触 增强 ， 而 无 关 或 负 相 关 的 行为 导致 突 触 减弱 

(Stent，1973) 。 基 于 此 ， 我 们 推广 Hebb 修正 的 概念 。 突 触 减弱 同样 可 能 是 一 个 非 活 性 的 类 型 。 特 别 地 ， 
对 于 突 触 减弱 的 交互 条 件 可 能 仅仅 是 非 同 时 的 先 突 触 或 后 突 触 行为 。 
我 们 可 以 进一步 把 突 触 修正 规则 分 类 成 Hebb At Hebb 规则 ‘Palm，1992)。 据 此 ， 一 个 Hebb 突 触 随 着 
正 相 关 的 前 突 触 或 后 突 触 信号 增强 ， 随 着 无 关 或 负 相 关 信 号 而 减弱 。 在 Hebb H% Hebb 突 触 中 ， 对 突 触 修 
正 的 有 效 性 依赖 于 一 个 与 时 间 独 立 的 、 高 度 局 部 性 的 和 有 强 交 互 性 的 机 制 。 在 此 意义 下 ,一 个 逆 Hebb R 
触 自然 是 Hebb 突 触 的 ， 尽 管 功能 上 说 不 是 如 此 。 另 一 方面 ， 一 个 非 Hebb Rk, TEA Hebb 机 制 中 的 任 
何 一 点 。 

3. 协 方差 假定 。 一 种 克服 Hebb 假定 局 限 性 的 方法 就 是 使 用 在 Sejnowski (1977a, D 中 介绍 的 协 方差 假定 。 
在 此 假设 中 ， 在 式 (8. 2) 中 的 前 突 触 和 后 突 触 信号 被 通过 从 它们 各 种 在 以 特定 时 间 段 内 的 均值 中 分 离 出 的 前 
突 触 和 后 突 触 信和 号 所 替代 。 用 三 和 SWRA RMS zx; 和 后 突 触 信号 y 的 平均 时 间 值 。 根 据 协 方差 
假设 ， 突 触 权 值 的 调整 值 ww 由 此 和 定义: 

Aw, = yx; — T) (y: —y (A) 
其 中 ,RFISK., WH TAVTNART MRM SRAM, RRETRABENAS. HA. H 
方差 假设 有 以 下 性 质 ， 







。 收敛 到 一 个 非 频繁 状态 ， 即 当心 =F Ry, 一 了 时 Bë 
KBAR. Au, 
。 预测 突 触 增强 〈 即 突 触 强度 的 增加 ) MR fh HS 斜率 =1 


〈 即 突 触 强度 的 减少 ) 。 
A 给 出 了 Hebb 假定 和 协 方差 假定 的 不 同 。 在 这 两 
AFH, Au 关于 ye 的 依赖 都 是 线性 的 ; 然而 ， 0 
在 Hebb MET, KT» 轴 的 截 距 在 原点 ， 在 协 方 
ZR +. REE way 处 。 
从 式 (A) 中 得 到 如 下 的 重要 观点 : -wx 
C) 如 果 存 在 充分 层次 的 前 突 触 和 后 突 触 行为 . 即 
条 件 zx; > 工 和 ye 了 同时 满足 ， 罕 触 权 值 ws 则 
会 加 强 。 
(2) 当 以 下 两 种 条 件 之 一 成 立时 ， 罕 触 权 值 ws 
衰减 : 







WR- 。 _ 协 方差 假定 


PBL RAY 后 突 触 行为 思 





图 A 描述 Hebb 假定 和 协 方差 假定 示例 
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。 PRR AT A Ba >a) 缺乏 充分 的 后 突 触 行为 〈 即 y 二 7 了); 

。 或 一 个 后 突 触 行为 《 即 yy) 缺乏 充分 的 先 罕 触 行为 〈 即 zi; 去 工 ) 。 
这 种 行为 可 能 被 认为 在 输入 模式 之 间 的 暂时 性 苑 争 。 
,历史 注解 。 早 在 1989 年 Sanger 的 GHA 发 表 之 前 ，Karhunen 和 Oja (1982) 发 表 了 一 篇 会 议论 文 ， 描 述 了 
一 个 叫做 静态 梯度 算法 (SGA)， 用 于 减少 PCA 的 特征 向 量 。 后 来 有 人 证 明 SGA 与 GHA 非常 接近 ， 
. 小 波 。 在 本 书 的 序言 中 ，Mallat (1998) 有 以 下 的 论断 : 
小 波 并 非 基 于 新 的 思想 ， 而 是 基于 在 许多 不 同 领 域 中 不 同形 式 的 已 有 的 概念 。 小 波 理 论 的 形成 和 出 现 是 多 
种 学 科 努 力 的 结果 ， 其 包括 数学 、 物 理 、 工 程 这 三 门 被 认为 是 独立 发 展 相 同 思 想 的 学 科 。 对 于 信号 处 理 ， 
此 关联 创立 了 一 系列 的 观点 ， 其 意义 超出 了 新 基 或 变换 的 构造 。 
用 光芒 表示 一 个 零 均 值 的 羡 数 ， 如 下 : 


| y(t) dt = 0 


函数 g(t) 表示 一 个 带 通 滤波 器 的 脉冲 响应 ; 这 样 一 个 函数 可 以 称 之 为 小 波 。 此 小 波 被 规模 参数 :放大 ， 且 
随时 间 参 数 平移 ; 我 们 可 以 写成 ; 


dus t) = 0 
给 定 一带 傅 里 时 变 搞 GC(/) 的 实 值 信号 g(t)，g(t) 的 连续 小 波 变换 由 积分 形式 的 内 积 所 定 羡 : 
Wn = <dus(t) sg) = | gC dt 
根据 此 公式 ， 小 波 变 换 y., OSS g(t) 相 关 。 等 价 于 
Wi) = (Ba PGND 一 | GP TADAF 


其 中 yy. (OE & OM BRM ER, BS RABIN. Ah, MERER W, DRTE S 2) MAGS 
叶 变 换 G( 让 在 时 频 域 上 的 值 。 其 中 y, (7) 的 能 量 和 它 的 傅 里 叶 变 换 y,, (有) 是 有 关联 的 。 
读者 若 想 更 深层 次 地 了 解 小 波 变换 ， 可 以 参考 Mallat (1998) 和 Daubechies (1992, 1993) 的 书 。 而 Meyer 
(1993) 的 简介 性 的 书包 括 小 波 变 换 的 历史 发 展 过 程 。 
. FRM PCA 方法 。 
这 些 方法 可 以 被 归 人 四 类 网 络 : 
(1) Hebb 网 络 ， 用 非 线 性 神经 元 代替 基于 Hebb 规则 的 PCA 算法 的 线性 神经 元 得 到 (Karhunen and Jout- 
sensalo, 1995), 
(2) 复制 器 网 络 或 自动 编码 器 ， 建 立 在 多 层 感知 器 基础 上 ， 包 括 三 层 隐 藏 展 〈 开 ramer，1991) 
。 映射 层 ; 
 HRSUE ; 
。 道 映射 层 。 
复制 器 网 络 在 第 4 章 讨 论 。 
(3) 主 曲线 ， 基 于 捕获 数据 结构 的 曲线 或 曲面 的 选 代 估 计 (Hastie and Stuetzle, 1989). HARRAH KE 
做 发 现 主 曲线 离散 逼近 的 计算 过 程 ; 自 组 织 映 射 在 下 一 章 讨 论 。 
(4) 核 PCA。 源 于 Schölkopf 等 〈1998) ， 在 本 章 的 8. 8 节 中 讨论 。 
. TE Kim et al. (2005) ， 图 像 去 噪 实验 的 结果 ， 包 括 KHA HE, ART MPLA: 
。 A ( 单 块 ) 图 像 的 超 限 分 辨 和 去 噪 ; 
。 自然 场景 的 多 块 超 限 分 辨 图 像 。 
. 中 值 滤波 器 是 一 个 关于 如 下 的 绝对 误差 代价 函数 最 小 化 贝 叶 斯 风险 的 佑 计算 子 : 
R(e(n)) = | en) | 
其 中 eC(n) 是 误差 信号 ， 由 滤波 器 的 预期 响应 信号 和 实际 响应 之 间 的 差别 定义 。 绪 果 表 明 此 最 小 值 就 是 后 验 
概率 密度 函数 的 中 值 ， 此 滤波 器 也 因此 得 名 。 
| iE Wiener HRB. Wiener 滤波 器 在 第 3 章 讨论 过 。 在 自 适应 Wiener MRAP, MARA Ix), 
d (ny | 蕊 ;被 分 为 一 系列 连续 的 带 类 标 数 据 块 。 并 且 滤 波 器 参数 在 块 乘 块 的 基础 上 ， 使 用 规范 等 式 〈 或 离散 
形式 的 Wiener-Hopi 等 式 ) 计算 。 实 际 上 ， 在 每 一 块 内 ， 数 据 被 看 成 伪 静 态 的 。 每 一 训练 样本 的 统计 变化 
显示 了 滤波 器 参数 在 每 一 块 上 发 生变 化 。 
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10. Sobolev 空间 由 空间 中 所 有 具有 m 阶 导 数 的 一 数组 成 。 并 且 在 此 空间 中 ， 所 有 m 阶 导数 都 是 绝对 可 积 的 
(Vapnik, 1998). Bezov 空间 包含 第 三 个 参数 ， 并 在 m=1 A m= oit, MH TARARE. 


习题 


竞争 和 合作 
8.1 在 自 组 织 系统 中 ， 包 含 竞 争 和 合作 。 我 们 发 现 竞 争先 于 合作 。 证明 此 论断 的 合理 性 。 
主 分 量 分 析 : 约束 优化 方法 
8.2 在 8.4 节 中 ， 我们 使 用 扰动 理论 来 推导 PCA, ELYAF, 我们 从 一 个 约束 最 优化 方法 的 角度 ， 来 解决 
同样 的 问题 。 
令 x 表示 一 个 m 维 零 均值 的 数据 向 量 ，w 表示 同样 m 维 的 可 调整 的 参数 向 量 。 邻 表示 数据 问 量 x 在 
参数 向 量 w 上 投影 的 方差 。 
(a) 证 明 在 w==1 的 约 东 条件 下 ， 拉 格 朗 日 最 大 化 方差 ,由 如 下 定义 : 
J(w) = w Rw— Alw w— 1) 
其 中 R 是 数据 向 量 x 的 协 方差 矩阵 ，1 是 拉 格 朗 日 滋 子 。 
(b) 使 用 8. 2(a) 的 结果 ， 证 明 关于 w 的 拉 格 朗 日 函数 J(Cw) 最 大 解 由 如 下 的 特征 方程 所 定义 : 
Rw = Aw 
因此 ， 说 明 o =E[ (wx)? =a. AERC. wee, A 是 相应 的 特征 值 。 
Cc) SHARAF a, 表示 对 于 第 i 个 特征 向 量 的 规范 化 条 件 ‖wi||=1。 令 拉 格 朗 日 乘 子 A; ER EE 
条 件 wrw;=0。 证 明 拉 格 裔 日 函数 此 时 有 如 下 的 扩展 形式 : 


Zi . 
JCw,) = w Rw, — Ai (wjiw 一 1) 一 DN WwW, , i = 1,2,°%+5m 


因此 ， 证 明 最 大 化 J Cw.) 这 m PERDRE OR ETEA 的 特征 向 量 w. 
8.3 邻 芭 维 零 均值 数据 向 量 x 的 估计 由 如 下 的 等 式 定义 ， 


x = Xag, <m 
其 中 q; 是 如 下 协 方差 矩阵 的 第 ; 个 特征 右 量 ， 
R = E| xx’ | 
Haars ya 是 系数 ， 受制 于 如 下 条 件 : 
7 fl 为 j=i 
da= | 其 他 


证 明 关 于 可 变 系 数 对 如 下 均 方 误差 的 最 小 值 ， 
J) =EL lx- g 17] 
就 是 所 定义 的 第 i 个 主 分 量 
a; 一 qi x; i=1,2,-,l 
即 数据 向 量 x 在 特征 向 量 9 上 的 投影 。 
8.4 根据 问题 8. 2 中 讨论 的 约束 最 优化 问题 ， 考 虑 拉 格 朗 日 函数 ， 
Jew) = (wx) —ACw'w— 1) 
Eho o 表示 零 均 值 数据 向 量 x 在 权 值 向 量 w 上 的 投影 的 方差 的 瞬时 值 。 
(a) (HIP BH eR J(w) 关 于 可 变 权 值 w 的 梯度 ， 有 


gow) = of = 2(w'x)x— 2Aw 
(b) 对 于 在 线 学 习 的 静态 梯度 下 降 算法 ， 我 们 有 如 下 权 值 更 新 公式 ， 
Wnt) 一 On) +> BO)? 


其 中 了 是 学 习 参 数 。 因 此 ， 可 以 推出 迭代 公式 : 
Win +1) = Wn) 十 下 (XCnD)X Cn)) WD) 一 ATM (x(n) x? (n)) Wn) Hn) J 


这 是 式 (8. 47) 的 重 写 ， CXTKT RRA n MARAE, MWOORET wo. 
基于 Hebb 的 最 大 特征 滤波 器 
8.5 对 于 例 2 中 考虑 的 匹配 滤波 器 ， 特 征 值 4 和 对 应 的 特征 向 量 为 qi ， 定 义 为 : 
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且 


证 明 这 些 参数 满足 基本 的 关系 : 
Rg = Arh 
其 中 R 为 输入 向 量 的 相关 矩阵。 
8.6 考虑 最 大 特征 滤波 器， 其 中 权 值 向 量 wln) 按 照 式 (8. 46) 演 化 。 证 明 随 着 趋向 于 无 穷 大 ， 滤 波 器 的 输出 
方差 趋向 于 Mu， 其 中 in 为 输入 向 量 相关 和 矩阵 的 最 大 特征 值 。 
8.7 次 分 量 分 析 (minor components analysis, MCA) 与 主 分 量 分 析 是 相反 的 。 在 MCA 中 ， 我 们 寻找 投影 方 
差 最 小 的 方向 。 这 样 得 到 的 方向 对 应 于 输入 向 量 XC) I KE R 的 最 小 特征 值 的 特征 向 量 。 
在 本 题 中 ， 我 们 探讨 怎样 修改 8.4 节 的 单个 神经 元 发 现 R 的 次 分 量 。 特 别 地 ， 我 们 可 以 对 式 (8. 40) 的 学 
习 规 则 改变 符号 ， 得 到 (Xu 等 ，1992) : 
w(n-+ 1) = wn) — mm (a(n) — yn) wn)) 
TE AA an FR A Se ER 的 最 小 特征 值 4 重 数 为 1， 则 : 
lim wen) = hAm 
其 中 w(2a) 是 权 值 向 量 ， 第 ;个 分 量 是 win), qn 是 与 1。 对 应 的 特征 向 量 。 
基于 Hebb 的 主 分 量 分 析 
8.8 构造 一 个 信号 流 图 表示 向 量 值 等 式 (8. 87) 和 式 (8. 88), 
8.9 ”在 8.5 节 描 述 的 用 于 收 化 性 分 析 的 常 微分 方程 方法 不 能 直接 用 于 广义 Hebb 学 习 算 法 (GHA). Rin, 
通过 将 式 (8. 91) 的 突 触 权 值 矩阵 WOON W(n) 的 列 向 量 的 组 合 来 表示 ， 则 我 们 可 以 用 通常 的 方式 解释 更 
新 函数 ， 然 后 继续 应 用 渐进 稳定 性 定理 。 因 此 ， 根 据 此 处 已 有 的 说 明 ， 证明 GHA 算法 的 收敛 性 定理 。 
8.10 在 这 个 习题 中 ， 我 们 可 以 探讨 利用 广义 Hebb 算法 来 研究 随机 输入 向 量 产生 的 二 维 接 收 域 (Sanger, 
1990) 。 随 机 输入 包含 独立 于 高 斯 噪声 具有 零 均 值 和 单位 方差 的 二 维 域 ， 它 与 高 斯 掩 模 GRR) 作 卷 
积 ， 然 后 乘 以 一 个 高 斯 窗 。 高 斯 掩 模 有 两 个 像素 的 标准 偏差 ， 高 斯 窗 有 8 个 像素 的 标准 偶 差 。 在 位 置 
(r,s) 的 结果 随机 输入 zlr,s) 可 以 写成 : 
xz(rys) = mlr,s)[ glr,s) * wlr,s) | 
其 中 wr,s) 是 独立 和 同 分 布 的 高 斯 噪声 的 域 ，g(r,s) 是 高 斯 掩 模 ，m(r,s) 是 窗 函 数 。g (r,s) 和 wr,s) 
的 循环 卷 积 由 下 式 定 义 : 


N—1 一 1 


g(rys) x wlrys) = >) Pg(p,q wr— ps— gq) 


p=0 9g=0 
其 中 g(r,s) 和 wlr,s) 均 假设 为 周期 的 。 
用 随机 输入 zrs) hg 2000 个 样本 训练 基于 GHA 算法 的 单 层 前 馈 网 络 。 网 络 有 4 096 SMA, 排列 成 
64X64 像素 网 格 ， 具 有 16 个 输出 。 训 练 网 络 的 结果 突 触 权 值 用 64 X64 阵列 的 数 表 示 。 执 行 上 述 计算 
并 显示 突 触 权 值 作为 二 维 掩 模 的 16 个 阵列 。 评 价 你 的 结果 。 
8.11 在 仅 需 要 主子 空间 ( 即 主 特征 向 量 张 成 的 空间 〉 的 情况 下 ， 我 们 可 以 使 用 由 此 式 定义 的 对 称 算法 : 
W;(n +1) = Wy (n) + pix — & (J 
Rn) = >) Wn yn) 
(a) 讨论 此 对 称 算法 和 GHA 之 间 的 异同 点 。 
(b) 主子 空间 可 以 看 成 式 (8. 46) 定 义 的 Oja 规则 的 泛 化 。 解 释 此 泛 化 的 合理 性 。 
特征 提取 : 习题 8.12 和 习题 8.13 的 导言 
在 表示 一 个 由 许多 聚 类 组 成 的 数据 集 时 ， 我 们 可 以 说 ， 为 了 使 这 些 聚 类 可 见 ， 它 们 之 间 的 分 割 应 当 大 于 
SPREE. WRU ERA RO, BRP RADAR AW RA, BARI PCA 所 求 出 的 主 分 量 
来 投影 聚 类 的 话 就 会 得 到 好 的 分 离 效果 。 这 样 对 于 特征 提取 问题 来 说 就 会 是 有 效 的 一 组 基底 。 
8.12 在 4.19 节 中 ， 我 们 描述 了 结构 风 丛 最 小 化 ， 此 方法 通过 为 机 器 学 习 匹 配合 适 大 小 的 训练 样本 集 ， 来 系 
统 地 获得 最 佳 的 泛 化 性 能 。 
把 目标 作为 约 简 输 入 数据 空间 维 数 的 主 分 量 分 析 看 成 机 器 学 习 的 预 处 理 过 程 ， 讨论 这 个 预 处 理 过 程 如 
何 能 够 通过 对 一 组 模式 分 类 器 排序 ， 而 把 结构 信息 嵌入 学 习 过 程 。 
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8. 13 ”作为 预 处理 过 程 的 主 分 量 分 析 的 另 一 个 应 用 是 使 用 反 向 传播 算法 监督 式 地 训练 一 多 层 感知 套 。 
此 应 用 的 目的 是 通过 对 输入 数据 相关 联 而 加 速 学 习 过 程 的 收敛 。 试 讨论 此 目的 如 何 实 现 ， 
自 适 应 主 分 量 提 取 
8.14 广义 Hebb 学 习 算 法 (GHA) 依赖 于 对 主 分 量 分 析 使 用 反馈 连接 。 在 此 问题 中 ， 我 们 使 用 一 种 叫做 自 
适应 主 分 量 提 取 算 法 (Kung and Diamantaras, 1990; Diamantaras and Kung, 1996). 
APEX 算法 使 用 前 馈 和 反馈 连接 ， 如 图 P8. 14 所 示 。 输 和 向量 x 是 m 维 ， 网络 中 的 每 一 个 神经 元 都 是 
线性 的 。 
在 此 网 络 中 有 两 种 突 触 连接 ，: 
C1) 从 输入 结 点 到 1 2 7 每 个 神经 元 的 前 馈 连 接 ， 其 中 jo 
这 些 连 接 由 前 馈 权 值 问 量 表示 : 
w Cn) = [wa (n) swa ln) so, Wim Ce) J? 
其 中 代表 离散 的 时 间 。 
(2) 由 从 1,2,…,j 一 1 单个 神经 输出 到 神经 元 7 的 侧 向 连接 ; 这 些 
连接 由 反馈 神经 权 值 表示 : 
a; (na) = | az (n) ya nD) saj j Cn) J? 
这 些 前 馈 突 触 连接 是 Hebb 的 , 但 是 反馈 突 触 连接 是 反 Hebb 的 ， 
因此 是 抑制 的 。 神 经 元 7 的 输出 由 以 下 给 出 : 
y nD) = wi (Cn) x(n) + af ayj- GD 
由 以 上 分 析 ， 我 们 假定 网 络 中 所 有 神经 元 已 收敛 到 它们 各 自 的 稳定 





RS. B 
w (0) = qs, k=1,2,%,j—1 .输出 层 
a4(0)=0, Rk=1,2,°5j—1 图 P8.14 APEX 算法 中 的 前 饥 
其 中 g 是 相应 于 协 方差 矩阵 的 第 & 个 特征 值 的 特征 向 量 。 和 后 向 连接 网 络 


R = Elx(n)x" Cn) ] 在 时 间 Bt Bn = 0 . 
(a) 基于 式 (8. 40)， 写 出 对 于 神经 元 7 的 关于 向 量 wj (n) 和 aj (2) 的 更 新 公式 。 
Cb) 假定 协 方差 矩阵 R 的 特征 值 按 降 序 排 列 ， 其 中 心 是 最 大 的 。 记 为 关于 特征 值 的 特征 向 量 q。 要 
表达 前 馈 权 值 向 量 w (mn) 的 时 变 特 性 ， 可 以 使 用 如 下 式 表示 : 


wn) = >) 0 (nq 
k=1 
其 中 6 (n) 是 时 变 系数 。 因 此 ， 试 证 : 
Ch) Plant Dae = X, (1+ las — of 1} On ae + 2 Ma Cn) 
= k=l 


其 中 7 是 学 习 参 数 ，ax (2) 是 反馈 权 值 向 量 a Nk TR, B o? (n) =EL y? (MJERA j 
的 平均 输出 。 
CH) aat D =— Mr GOL, + = Las + 6? (n) ja; (n) 
其 中 1 是 其 所 有 分 量 都 为 0， 仅 第 个 分 量 为 1 的 向 量 。 
(c) 为 了 进一步 讨论 ， 需 要 考虑 丙种 情况 : 
情况 I: 1 委 &4 委 7) 一 ] 
在 此 情况 下 ， 有 : 
Ox (2 十 1) 1+ lar — o (n)) VÀ: Oa Cn) 
we | pee 1 一 了 As a disk acid 
此 2X2 的 矩阵 具有 二 重 特征 值 
Pik = [1— ya} (n) ? 
考虑 到 op <1, 证 明 Oe (n) Al ag (ME n A AN UM T 0. 
情况 I 了: jem 
对 于 此 种 情况 ， 反 馈 权 值 ax (n) 对 于 网 络 的 模型 没有 影响 ; 因此 ， 
ayn (n) = 0 对 于 7 也 km 
故而 ， 对 于 每 个 Sj 的 主要 模型 ， 有 
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Oy (n+ 1) = {1+ Las — o$ (n) ]) 0a (n) 
因此 =” 不断 增 大 时 2x Coe) AEAF 0。 
神经 元 ; 的 平均 输出 表达 如 下 : 


on) = > XO (n) 
k=; 


最 终 有 : 
lim øf (n) = A; 
和 
lim W; (n) = qg; 
核 PCA 


8.15 42, BIRERE KE ij SICK k 中 心 化 后 所 对 应 的 部 分 。 证 明 以 下 等 式 (Schölkopf, 1997): 
a A We b (x,,) (x) 一 mp b' (x) q(x,) ge > b (xn) OCx,) 
建议 用 紧凑 的 矩阵 形式 表示 这 个 关系 。 
8.16 证 明 核 矩阵 K 的 特征 向 量 w 的 归 一 化 与 式 (8. 109) 的 条 件 等 价 。 
计算 机 实验 
8.17 我 们 继续 8. 7 节 中 图 像 编 码 的 实验 ， 有 两 个 特别 有 趣 的 问题 : 
(a) 描绘 GHA 的 学 习 曲 线 ， 其 中 算法 是 训练 Lena 图 像 〈( 即 描绘 均 方 误差 随 着 训练 轮 数 的 变化 的 变化 
Ft). 
(Cb) EFE., HHACREAR PRENSA. 
8.18 在 此 实验 中 ， 我 们 重新 提 到 核 PCA 中 的 例 3。 我 们 对 于 二 维 数 据 用 以 下 公式 计算 核 PCA 分 量 : 
Xs = Xf 十 v 
其 中 是 均值 为 0 方差 0.04 的 附加 高 斯 噪声 。 然 而 ， 此 处 我 们 要 求 用 核 Hebb 算法 计算 。 比 较 此 处 和 
例 3 中 的 实验 结果 。 
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这 一 章 学 习 运 用 自 组 织 原 则 来 产生 “拓扑 映射 ”。 关 于 这 一 主题 的 处 理 方案 组 织 如 下 : 

9.1 节 是 引言 ， 用 于 激发 运用 自 组 织 映射 网 的 兴趣 。 

9.2 节 描 述 两 个 基本 特征 模型 ， 它 们 两 个 都 用 自己 的 方式 受到 神经 生物 学 考虑 的 激发 。 

9.3 节 和 9.4 节 处 理 高 度 流 行 和 广泛 使 用 的 自 组 织 〈 特 征 ) RA (SOM) 及 其 特性 。9.5 节 
介绍 计算 机 实验 ， 突 出 了 SOM 的 独 有 的 特征 。9.6 节 介 绍 SOM 用 于 构造 上 下 文 映 射 的 应 用 。 

9.7 节 讨 论 分 层 矢量 量化 ， 利 用 自 组 织 映 射 将 简化 其 执行 。 

9.8 节 讲 述 基 于 核 的 自 组 织 映 射 ‘kernel SOM), XAA 9.9 节 的 计算 机 实验 来 例 示 
这 一 新 算法 的 改进 的 拓扑 映射 能 力 。9. 10 节 讨 论 核 SOM 和 Kullback-Leibler RRZAN KA. 

9.11 节 通 过 小 结 和 讨论 本 章 的 主要 内 容 而 结束 本 章 。 


在 这 一 章 我 们 通过 考虑 一 种 称 为 自 组 织 映射 的 特殊 人 工 神 经 网 络 继续 学 习 自 组 织 系统 。 这 
类 网 络 基于 竞争 学 习 (competitive learning); 网 络 的 输出 神经 元 之 间 互 相 竞 争 以 求 被 激活 或 
点 火 ， 结 果 在 每 一 时 刻 只 有 一 个 输出 神经 元 ,或 者 每 组 只 有 一 个 输出 神经 元 被 激活 。 谨 得 苋 争 
的 一 个 输出 神经 元 被 称 作 胜 者 全 得 (winner-takes-all) 神经 元 或 简称 获胜 神经 元 (winning 
neuron)! 。 在 输出 神经 元 中 导出 胜 者 全 得 的 竞争 方法 是 在 它们 之 间 使 用 侧 抑 制 连接 ( 即 负 反馈 
路 径 ); 这 个 思想 是 由 Rosenblatt (1958) 最 先 提出 的 。 

在 自 组 织 映射 里 ， 神 经 元 被 放置 在 网 格 节点 上 ， 这 个 网 格 通常 是 一 维 或 是 二 维 的 。 更 高 维 
映射 也 可 以 ,但 是 不 常见 。 在 竞争 学 习 过 程 中 ， 神 经 元 变化 依 不 同 输入 模式 (刺激) 或 者 输入 
模式 的 类 别 而 选择 性 地 调整 。 这 样 调整 后 神经 元 〈( 即 获胜 神经 元 ) 的 位 置 役 此 之 间 成 为 有 序 
的 ， 使 得 对 于 不 同 的 输入 特征 ， 在 网 格 上 建立 起 有 意义 的 坐标 系 。 因 此 自 组 织 映 射 由 输入 模式 
的 拓扑 映射 (topographic map) 结构 所 表征 ， 其 中 网 格 神 经 元 的 空间 位 置 〈 即 坐标 ) 表示 输入 
模式 包含 的 内 在 统计 特征 ,“ 目 组 织 上 映射 ”因此 得 各。 

作为 一 个 神经 模型 ， 自 组 织 映 射 在 两 个 自 适 应 层次 之 间 提 供 桥梁 ， 

。 在 单个 神经 元 的 微观 层次 形成 自 适 应 规则 。 

。 在 神经 元 层次 的 微观 层 上 形成 特征 选择 的 在 实验 上 更 好 和 具体 可 实现 的 模式 。 

自 组 织 映射 本 质 上 是 非 线性 的 。 

发 展 自 组 织 上 映射 作为 神经 模型 是 由 人 脑 的 一 个 突出 特征 所 激发 : 

“人 脑 在 许多 地 方 以 这 样 一 种 方式 组 织 起 来 ， 使 得 不 同 的 感觉 输入 由 拓扑 有 序 的 计算 映射 
(topologically ordered computational map) 来 表示 。 

特别 地 ， 感 觉 输入 如 触觉 (Kaas 等 ，1983) 、 视 党 (Hubel and Wiesel, 1962, 1977) 和 
听觉 (Suga, 1985) 用 拓扑 有 序 的 方式 映射 到 人 脑 皮层 的 不 同 区 域 。 这 样 在 神经 系统 的 信息 处 
理 基本 结构 中 ， 计 算 映 射 组 成 一 个 基本 构件 。 一 个 计算 映射 由 神经 元 阵列 定义 ， 这 些 神 经 元 表 
示 略 微 不 同 调制 的 处 理 器 和 滤波 器 ， 它 们 并 行 处 理 携 带 信息 的 传 感 信 号 。 所 以 ， 神 经 元 将 输入 
信号 转变 为 空间 位 置 编码 的 概率 分 布 ， 分 布 通过 映射 中 最 大 相关 激活 的 位 置 表示 参数 的 计算 值 
(Knudsen 等 ，1987) 。 用 这 种 方式 导出 的 信息 属于 这 样 一 种 形式 ， 它 可 以 用 于 使 用 相对 简单 的 
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连接 模式 的 高 阶 处 理 紫 。 
9.2 两 个 基本 的 特征 映射 模型 


任何 人 只 要 检查 人 脑 就 会 禁不住 对 人 脑 被 大 脑 皮 质 所 占据 的 范围 留 下 深刻 印象 。 人 脑 几 平 
完全 被 大 脑 皮 质 所 包围 ， 它 遮 项 了 其 他 部 分 。 由 于 惊人 的 复杂 性 ， 大 脑 皮质 也 许 超过 了 宇宙 中 
任何 已 知 的 结构 (Hubel and Wiesel，1977) 。 同 样 给 我 们 深刻 印象 的 是 将 不 同 的 感觉 输入 〈 运 
动 、 身 体 的 体 觉 、 视 觉 、 听 觉 等 ) 以 一 种 有 序 的 方式 映射 到 相应 的 大 脑 皮 质 区 域 的 方法 ; 为 了 
说 明 这 一 点 ， 参 看 导言 中 图 4 的 大 脑 皮 质 的 细胞 结构 图 。 计 算 映 射 的 使 用 提供 下 面 的 特性 
(Knudsen 等 ，1987; Durbin and Michison, 1990): 


1. 在 每 次 映射 中 ， 神 经 元 并 行 地 处 理 自 然 相 似 的 信息 片断 ， 但 这 些 信 息 片 断 来 自 于 感知 
输入 空间 的 不 同 区 域 。 

2. 在 表示 的 每 一 阶段 ， 每 一 个 新 来 的 信息 片段 保持 在 它 合适 的 位 置 中 。 

3. 处 理 高 度 相 关 的 信息 片段 的 神经 元 被 紧密 地 联系 到 一 起 ， 通 过 短 的 突 触 连接 使 得 它们 
能 够 交互 。 

4. 上 下 文 映射 能 通过 从 高 维 参 数 空 间 到 皮质 表面 的 决策 - 襄 减 映射 〈decisionreducing 
mapping) 来 理解 。 


我 们 的 兴趣 在 于 建立 人 工 拓 扑 映 射 ， 它 以 神经 生物 学 激励 的 方式 通过 自 组 织 来 学 习 。 在 这 
段 文字 中 ， 从 人 脑 计 算 映 射 的 非常 简短 的 讨论 所 体现 的 重要 一 点 是 拓扑 映射 构成 原则 ， 它 可 以 
陈述 如 下 (Kohonen, 1990): 


在 拓扑 映射 中 输出 神经 元 的 空间 位 置 对 应 于 特殊 的 定义 域 或 从 输入 空间 抽取 数据 的 特征 。 


这 个 原则 提供 了 这 里 描述 的 两 个 基本 不 同 的 特征 映射 模型 "的 神经 学 生物 基础 。 

图 9. 1 展现 两 个 模型 的 布局 。 在 这 两 种 情 
况 下 输出 神经 元 被 安排 在 二 维 的 网 格 中 。 这 种 ”获胜 神经 下 
拓扑 确保 每 个 神经 元 都 有 一 组 邻 域 。 模 型 间 的 
区 别 在 于 输入 模式 的 指定 方式 。 

图 9. 1a 的 模型 由 Willshaw and von der 
Malsburg (1976) 在 生物 学 基础 上 首先 提出 ， 
用 以 解释 (在 高 级 消 椎 动物 中 ) 从 视网膜 到 视 
觉 皮质 的 视觉 映射 的 问题 。 具 体 地 ， 有 两 个 不 
同 的 二 维 网 格 神经 元 连接 在 一 起 ,一 个 投射 到 
另 一 个 。 一 个 网 格 代表 前 突 触 (输入 〉 神 经 元 ， 
另 一 个 网 格 代表 后 突 触 〈 输 出 神经 元 。 后 突 
触 网 格 使 用 短程 兴奋 机 制 〈short range excitato- 
ry mechanism) 和 长 程 抑制 机 制 Clong-range in- 
hibitory mechanism) 。 这 两 种 机 制 本 质 上 都 是 
局 部 的 且 对 自 组 织 特别 重要 。 这 两 个 网 格 由 
Hebb 型 的 可 调 突 触 相互 连接 。 因 此 严格 地 
说 ,后 突 触 神经 元 并 不 是 胜 者 全 得 ; 相反 使 用 
六 值 确保 在 任 一 时 刻 仅 有 一 些 后 突 触 神经 元 所 
火 。 更 进一步 ， 为 了 防止 可 能 导致 网 络 不 稳定 
性 的 突 触 权 值 的 稳定 建立 ， 每 个 后 突 触 神经 元 图 9.1 两 个 自 组 织 特征 映射 








后 突 触 神经 元 二 维 阵列 


突 触 连接 束 “ 源 于 其 他 
的 前 突 触 神经 元 有 类 似 
的 突 触 连接 束 ) 


b) Kohonen 模型 
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的 总 权 值 有 一 个 上 界 *。 因 此 对 每 个 神经 元 一 些 突 触 权 值 上 升 伴随 着 男 外 的 神经 元 下 降 。 
Willshaw-von der Malsburg 模型 的 基本 思想 是 对 前 突 触 神经 元 的 几何 邻近 编码 为 它们 电位 活 
动 的 相关 形式 ， 并 且 在 后 突 触 网 格 中 利用 这 些 相关 使 得 相 邻 的 前 突 触 神经 元 连接 到 相 邻 的 后 突 
触 神经 元 。 从 而 由 自 组 织 产生 拓扑 有 序 的 映射 。 但 需 注意 Willshaw-von der Malsburg 模型 限 
制 为 输入 和 输出 维 数 相同 的 映射 。 

图 9. lb 的 第 二 个 模型 ， 由 Kohonen (1982) 引入 ， 并 不 在 说 明神 经 生物 学 的 细节 。 模 型 
抓 住人 脑 中 计算 映射 的 本 质 特征 而 且 保 留 计算 的 易 行 性 。Kohonen 模型 看 起 来 比 Willshaw- 
von der Malsburg 模型 更 为 一 般 ， 前 者 能 进行 数据 压缩 〈 即 输入 维 数 的 缩减 )。 

现实 中 ，Kohonen 模型 属于 向 量 一 编码 (vector-coding) 算法 的 类 型 。 模 型 提供 一 个 拓扑 
映射 ， 它 最 优 地 设置 固定 数目 的 向 量 〈 即 编码 字 ) 到 高 维 输入 空间 ， 因 此 有 利于 数据 压缩 。 
Kohonen 模型 因此 可 由 两 种 方式 导出 。 首 先 ， 我 们 可 以 用 由 神经 生物 学 考虑 所 激发 的 自 组 织 的 
基本 思想 导出 模型 ， 这 是 传统 的 方法 (Kohonen，1982，1990，1997)。 另 外 ， 可 以 用 向 量 量 
化 的 方法 ， 使 用 包含 编码 器 和 解码 器 的 模型 ， 这 由 通信 理论 的 考虑 所 激发 (Luttrell, 1989b, 
1991a) 。 在 本 章 我 们 考虑 这 两 种 方法 。 

在 文献 中 Kohonen Aa Willshaw-von der Malsburg 模型 受到 更 多 的 关注 。 它 拥有 在 本 
音 后 面 讨论 的 一 些 性 质 ， 这 使 得 Kohonon 模型 可 能 用 于 捕捉 皮 质 映射 的 本 质 特征 。 
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自 组 织 映 射 〈self-organizing map, SOM) 的 主要 目的 是 将 任意 维 数 的 输入 信和 号 模式 转变 
为 一 维 或 二 维 的 离散 映射 ， 并 且 以 拓扑 有 序 的 方式 自 适应 实现 这 个 变换 。 图 9. 2 给 出 常用 作 离 
散 映 射 的 二 维 神经 元 网 格 的 简要 图 表 。 网 格 中 每 个 神经 元 和 输入 层 的 源 节点 全 连接 。 这 个 网 络 
表示 具有 神经 元 按 行 和 列 排列 的 单一 计算 层 的 前 馈 结 构 。 一 维 网 格 是 图 9. 2 描绘 的 构 形 的 一 个 
特例 : 在 这 种 特殊 情形 中 ， 计 算 层 仅 由 单一 的 列 或 行 神经 元 构成 。 


aaaf 


输出 





图 9.2 ”神经 元 的 二 维 网 格 ， 以 三 维 输入 和 4X4 维 输出 为 例 说 明 


呈现 给 网 络 的 每 个 输 和 模式， 通常 包含 面 对 平 静 背 景 的 一 个 局 部 化 活动 区 域 或 “点 "。 这 
个 点 的 位 置 和 性 质 通常 随 输入 模式 的 实现 不 同 而 不 同 。 oe 经 元 应 经 历 输 入 模式 
的 足够 次 数 的 不 同 实 现 ， 确 保有 机 会 完成 恰当 的 自 组 织 

负责 形成 自 组 织 映射 的 算法 ， 第 一 te A 这 个 工作 可 以 从 随机 数 
产生 器 中 挑选 较 小 的 值 赋予 它们 ; 这 样 做 ， 在 特征 映射 上 没有 加 载 任 何 先 验 的 序 。 一 旦 网 络 被 
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恰当 初始 化 ， 在 自 组 织 映射 的 形成 中 有 三 个 主要 过 程 ， 小 结 如 下 : 
1. 竞争 。 对 每 个 输入 模式 ， 网 络 中 的 神经 元 计算 它们 各 自 的 判别 琐 数 的 值 。 这 个 判别 本 
数 为 神经 元 之 间 的 竞争 提供 基础 。 具 有 判别 函数 最 大 值 的 特定 神经 元 成 为 竞争 的 胜利 者 。 
2. 合作 。 获 胜 神经 元 决定 兴奋 神经 元 的 拓扑 邻 域 的 空间 位 置 ， 从 而 提供 这 样 的 相 邻 神经 
元 合作 的 基础 。 
3. 突 甬 调节。 最 后 的 这 一 机 制 使 兴奋 神经 元 通过 对 它们 突 触 权 值 的 适当 调节 以 增加 它们 
关于 该 输入 模式 的 判别 函数 值 。 所 做 的 调节 使 获胜 神经 元 对 以 后 相似 输 人 模式 的 响应 增强 了 。 
竞争 和 合作 的 过 程 符合 第 8 章 描述 的 四 个 自 组 织 原则 中 的 两 个 。 对 于 上 自 增强 原则 ， 它 来 源 
于 自 适 应 过 程 的 Hebb 学 习 的 修正 形式 。 如 第 8 章 的 解释 ， 输 入 数据 中 的 元 余 《〈 虽 然 在 描述 
SOM 算法 时 没有 明显 提 及 ) 对 学 习 是 必要 的 ， 因 为 它 提供 了 输入 激活 模式 中 所 隐 含 的 绪 构 知 
识 。 下 面 给 出 竞争 、 合 作 和 突 触 调节 过 程 的 详细 描述 。 
je pee i 
令 m 表示 输入 (数据 ) 空间 的 维 数 。 从 输入 空间 中 随机 选择 输入 模式 〈 向 量 ) 记 为 
K = lroa tml? (9. 1) 
网 络 中 每 个 神经 元 的 突 触 权 值 向 量 和 输入 空间 的 维 数 相同 。 神 经 元 7 的 突 触 权 值 向 量 记 为 
wj = [Wy Wests Win | 了 一 1 2 (9. 2) 
其 中 7 是 网 络 中 神经 元 的 总 数 。 为 了 找到 输入 向 量 x 与 突 触 权 值 向 量 w 的 最 佳 丐 配 ， 对 
1 一 1,2,…,! 比 较 内 积 wrx 并 选择 最 大 者 。 这 里 假定 所 有 的 神经 元 有 相同 的 阐 值 ， 阐 值 偏 置 取 
fi, 这样， 通过 选择 具有 最 大 内 积 wx 的 神经 元 ， 我 们 实际 上 决定 了 兴奋 神经 元 的 拓扑 邻 域 中 
心 的 位 置 。 
从 导言 中 我 们 回想 基于 内 积 wx 最 大 化 的 最 优 匹 配 准则 ， 在 数学 上 等 价 于 向 量 x 和 w, 的 
欧 几 里 得 距离 的 最 小 化 。 如 果 用 索引 ;ix 标识 最 优 匹配 输入 向 量 x 的 神经 元 ， 我 们 可 以 通过 下 
列 条 件 决定 :COx) : | 
i(x) = arg min | x — w; || > 7ESA (9. 3) 
这 概括 了 神经 元 中 竞争 过 程 的 本 质 。 这 里 % 定 义 了 神经 元 网 格 。 根 据 式 (9. 3)，iCx) 是 注意 的 目 
标 ， 因 为 我 们 要 识别 神经 元 i。 满 足 这 个 条 件 的 特定 神经 元 i 被 称 为 输入 向 量 x 的 最 佳 匹配 或 
获胜 神经 元 。 式 (9.3) 导 出 这 样 的 观察 : 


激活 模式 的 连续 输入 空间 通过 网 络 中 神经 元 之 间 的 竞争 过 程 映射 到 神经 元 的 离散 输出 空间 。 


根据 应 用 的 不 同 ， 网 络 的 响应 可 能 是 获胜 神经 元 的 标号 〈 即 它 在 网 格 中 的 位 置 ) 或 者 是 在 欧 几 
里 得 距离 意义 下 距 输 入 向 量 最 近 的 突 触 权 什 向量 。 


合作 过 程 
获胜 神经 元 位 于 合作 神经 元 的 拓扑 邻 域 的 中 心 。 关 键 问题 是 ， 我 们 怎样 定义 一 个 在 神经 生 
物 学 上 正确 的 拓扑 邻 域 ? | 


要 回答 这 个 问题 ， 记 住 对 于 人 类 大 脑 中 一 组 兴奋 神经 元 的 侧 向 相互 作用 有 神经 生物 学 的 证 
据 。 特 别 地 ， 一 个 点 火 的 神经 元 倾向 于 激活 它 紧 接 的 邻 域内 的 神经 元 而 不 是 和 它 隔 得 远 的 神经 
元 ， 这 在 直观 上 是 满足 的 。 这 个 观察 引导 我 们 对 获胜 神经 元 的 拓扑 邻 域 按 侧 向 距离 光 清 地 缩减 
(Lo 等 ，1991，1993; Ritter 等 ，1992)  。 具 体 地 ， 设 万 .: 表 示 以 获胜 神经 元 ; 为 中 心 的 拓扑 邻 
域 月 包含 一 组 兴奋 (AID) 神经 元 ， 其 中 一 个 神经 元 记 为 了 7。 设 d;,; 表 示 在 获胜 神经 元 i MAE 
神经 元 j 的 侧 向 距离 。 然 后 我 们 可 以 假定 拓扑 邻 域 ,是 侧 向 距离 dj.: 的 单 峰 函 数 使 得 它 满足 两 
个 不 同 的 要 求 : 
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1. 拓扑 邻 域 h,; 关 于 4d, 二 0 定义 的 最 大 点 是 对 称 的 ; RG. EEN dj;,; 为 零 的 获胜 神 
经 元 i 处 达到 最 大 值 。 
2. 拓扑 邻 域 hj,; 的 幅度 值 随 侧 向 距离 d;,; 的 增加 而 单调 递减 ， 当 dj, OM RATS; 对 收敛 
来 说 这 是 一 个 必要 条 件 。 
满足 这 些 要 求 的 一 个 hj,; 的 好 的 选择 为 高 斯 也 数 ": 
dis) , IEA (9. 4) 
它 是 平移 不 变 的 〈《 即 不 依赖 于 获胜 神经 元 ; 的 位 置 )。 参 数 o 是 拓扑 邻 域 的 “有 效 宽度 "， 如 图 
9.3 所 示 ; 它 度量 靠近 获胜 神经 元 的 兴奋 神经 元 
在 学 习 过 程 中 参与 的 程度 。 就 量化 来 说 ， 式 
《9.4) 所 示 的 高 斯 拓扑 邻 域 比 矩 形 形 式 的 拓扑 邻 
域 在 生物 上 更 合适 。 它 的 使 用 使 SOM 算法 的 收 
敛 速度 比 矩 形 拓 扑 邻 域 更 快 (Lo 等 ,1991,1993; 
Erwin 等 ,1992a) 。 

对 于 邻 域 函 数 神 经 元 之 间 的 合作 ， 必 然 要 求 
Th SB aR oR hj,, 依 赖 获胜 神经 元 i 和 兴奋 神经 元 
j 在 输出 空间 的 侧 向 距离 d;,, 而 不 是 依赖 于 原始 输 
入 空间 的 某 种 距离 度量 。 这 正 是 在 式 (9.4) 中 我 





hj iw = exp(— 





A 


们 所 表达 的 意义 。 就 一 维 网 格 来 说 ， 必 ,是 整数 且 
等 于 | 7 一直。 另 一 方面 ， 在 二 维 网 格 的 情 次 下 它 图 9.3 R i SB Sak Ba HK 
定义 为 : 

d= "| —r ll? (9. 5) 
其 中 离散 向 量 r; 定义 兴奋 神经 元 ; 的 位 置 ， 而 rm 定义 获胜 神经 元 i 的 离散 位 置 ， 两 者 都 是 在 离 
散 输 出 空间 中 度量 的 。 


SOM 算法 的 另 一 个 独 有 特征 是 拓扑 邻 域 的 大 小 随时 间 收 缩 。 这 要 求 通过 使 拓扑 邻 域 咕 数 
h; AO ERE o 随时 间 而 下 降 来 满足 。 对 于 o 依赖 于 离散 时 间 的 流行 选择 是 由 


a(n) = o exp(—™) 2 = 041,24", (9. 6) 
Tl 


描述 的 指数 衰减 ， 其 中 do 是 SOM 算法 中 o 的 初 值 ， Tı 是 由 设计 者 选择 的 时 间 常数 (Ritter 
“= 1992; Obermayer 等 ，1991)。 因 此 ， 拓 扑 邻 域 假定 具有 时 变形 式 ， 表 示 如 下 : 


hiic (n) = exp(— n= O0,1,2,5°5 (9.7) 


di 

2a (ny) 
其 中 o(n) ARO. OHM. FEMA n (MARKO 的 增加 ， 宽 度 oc 以 指数 下 降 ， 拓 扑 邻 
域 以 相应 的 方式 缩减 。 然 而 ， 需 要 重点 指出 的 是 ， 邻 域 函 数 对 于 获胜 神经 元 :最终 仍然 具有 单 
位 值 ， 因 为 对 于 神经 元 7 的 距离 dj;,; 是 在 网 格 空间 中 计算 并 和 获胜 神经 元 i 相 比 较 的 。 

存在 着 另 一 种 关于 邻 域 函数 hj,iw (n) 在 获胜 神经 元 ix 周围 随时 间 n 变动 的 有 用 观点 。 宽 
E hw ln) 的 目标 是 使 网 格 中 大 量 兴 奉 神经 元 的 权 值 更 新 方向 相关 。 随 着 hio MRED, 
更 新 方向 相关 的 神经 元 数量 也 在 减少 。 当 自 组 织 映射 的 训练 在 计算 机 图 形 屏 幕 显示 时 ， 这 个 现 
象 尤 其 明显 。 以 相关 形式 在 获胜 神经 元 周围 移动 大 量 自由 度 是 相当 耗费 计算 机 资源 的 ， 就 像 标 
准 SOM 算法 一 样 。 相 反 ， 使 用 重 正 规 化 (renormalized) SOM 的 训练 形式 会 更 好 ， 根据 这 一 
情况 ， 我 们 选用 更 小 数量 的 正规 化 自由 度 。 通 过 使 用 恒定 宽度 的 邻 域 函 数 hj.xw(n)， 但 逐渐 增 
加 领域 函数 中 神经 元 的 数量 ， 这 个 操作 很 容易 以 离散 形式 完成 。 新 的 神经 元 被 插 到 已 有 的 神经 


ww ai bbt. com DDODODDD 





SIR BAAR 273 


元 之 间 ， 而 SOM 算法 的 平滑 性 保证 新 的 神经 元 以 很 好 的 方式 参与 突 触 自 适应 (Luttrell, 
1989a) 。 重 正规 化 SOM 算法 的 概述 在 习题 9. 15 给 出 。 
自 适应 过 程 
现在 我 们 来 讨论 特征 映射 自 组 织 形 成 过 程 的 最 后 一 个 过 程 ， 即 突 触 自 适 应 过 程 。 为 了 使 网 
络 成 为 自 组 织 的 ， 要 求 神经 元 7 的 突 触 权 值 向 量 w 随 输 入 向 量 x 改变 。 问题 是 如 何 进行 改变 。 
在 Hebb 学 习 假 设 中 ， 突 触 权 值 随 着 前 突 触 和 后 突 触 的 激活 同时 发 生 而 增加 。 此 方法 非常 适合 
联想 学 习 (例如 ， 主 分 量 分 析 )。 然 而 对 于 这 里 考虑 的 无 监督 学 习 ，Hebb 假设 的 基本 形式 是 
不 能 令 人 满意 的 ， 原 因 如 下 : 连接 的 改变 仅 发 生 在 一 个 方向 上 上， 这样 最 终 使 所 有 的 突 触 权 值 都 
趋 于 饱和 。 为 了 克服 这 个 问题 ， 我 们 通过 包括 一 个 遗忘 项 g&(Y)wi 来 改变 Hebb 假定 ， 其 中 w; 
是 神经 元 j 的 突 触 权 值 向 量 ，g(y;) 是 响应 y; 的 正 的 标量 函数 。 对 g(y 7) 的 唯一 强制 要 求 是 它 
的 Taylor 级 数 展开 的 常数 项 为 零 ， 这 样 我 们 可 写成 : 
gly; = 0 当 y, =0 (9.8) 
这 个 要 求 的 意义 很 快 就 会 变 得 明显 。 给 定 这 样 一 个 函数 ， 我 们 可 以 把 网 格 中 神经 元 7 OA 
量 改 变 表示 成 l 
Aw; = myix— g(r) Ww; (9.9) 
其 中 了 是 算法 的 学 习 率 参数 。 式 (9. 9) 右 端 第 一 项 是 Hebb 项 ,第 二 项 是 遗忘 项 。 为 了 满足 式 
(9.8), XF g(y;) 选 择 线 性 水 数 如 下 : 


EOD = ps (9. 10) 
对 于 获胜 神经 元 i(x)， 我 们 可 以 进一步 简化 式 (9. 9, R: 
VY he 《9. 11) 
用 式 (9. 10) 和 式 (9. 11) 代 人 式 (9. OBA: 
党 出 ZA Ty 
Aw; >= DN jiw (和 一 Wi)， E (9. 12) 


XERE) 神经 元 
最 后 使 用 离散 时 间 形 式 ， 假 定 在 时 间 n 神经 元 j 的 权 值 向 量 为 wo, BSA w+ Dd 
在 时 间 ”十 1 被 定义 为 : 
want 1) = Ww nm hw (n) (x(n) — w,(n)) (9.13) 
它 被 应 用 到 网 格 中 获胜 神经 元 ;的 拓扑 邻 域 中 的 所 有 神经 元 (Kohonen, 1982; Ritter 等 ， 
1992; Kohonen, 1997a), RO. 13) 具 有 将 获胜 神经 元 i 的 突 触 权 值 向 量 w 向 输入 向 量 x 移动 
的 作用 。 随 着 训练 数据 的 重复 出 现 ， 由 于 邻 域 更 新 使 得 突 触 权 值 向 量 趋 于 服从 输入 向 量 的 分 
布 。 因 此 算法 导致 在 输入 空间 中 特征 映射 的 拓扑 排序 ， 这 意味 着 网 格 中 相 邻 神经 元 会 有 相似 的 
突 触 权 值 向 量 。 关 于 这 一 点 在 9.4 节 中 ， 我 们 将 进一步 详 述 。 
式 (9. 13) 为 计算 特征 映射 突 触 权 值 所 期 望 的 公式 。 除 了 这 个 公式 之 外 ， 我 们 还 需要 用 于 选 
FEAR IR PBC 万 ,oo (2) 的 启发 式 规则 式 (9. D. 
学 习 率 参数 nCn) 应 如 式 (9.13) 所 示 的 时 变形 式 ， 这 也 是 它 用 于 随机 通 近 的 要 求 。 特 别 地 ， 
它 应 从 初始 值 p 开始 ,然后 随时 间 n 增加 而 逐渐 下 降 。 这 个 要 求 可 以 通过 下 面 的 启发 式 而 
Ti Ke 
y(n) = 加 exp(—~), n = 0,1,2,5", (9. 14) 
h, n 是 SOM 算法 的 另 一 个 时 间 常 数 。 即 使 在 式 (9.6) 和 式 (9.14) 中 描述 的 邻 域 函数 宽度 
和 学 习 率 参数 分 别 以 指数 衰减 的 公式 可 能 不 是 最 优 的 ， 但 它们 对 于 以 自 组 织 方 式 构成 特征 映射 
是 足够 的 。 
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自 适 应 过 程 的 两 个 阶段 : 排序 和 收敛 

假定 算法 的 参数 是 正确 选择 的 ， 从 完全 无 序 的 初始 状态 开始 ，SOM 算法 令 人 惊奇 地 逐步 
导致 一 个 从 输入 空间 抽取 的 激活 模式 有 组 织 地 表示 。 我 们 可 以 把 根据 式 (9. 13) 计 算 的 网 络 权 值 
的 自 适 应 分 解 为 两 个 阶段 :排序 或 自 组 织 阶 段 及 其 后 的 收敛 阶段 。 自 适应 过 程 的 这 两 个 阶段 描 
述 如 下 (Kohonen, 1982, 1997a): 

1. 自 组 织 或 排序 阶段 。 在 上 自 适 应 过 程 的 第 一 阶段 形成 权 值 向 量 的 拓扑 排序 。 这 个 排序 阶 
段 可 能 需要 SOM 算法 的 1000 次 迭代 ， 也 许 会 更 多 。 要 和 仔细 考虑 学 习 率 参数 和 邻 域 旺 数 的 
选择 。 

© 学 习 率 参数 y(n) 初 始 值 应 接近 0. 1; 然后 逐渐 减少 ， 但 应 保持 在 0.01 LE MEKA 

外 允许 为 0)。 这 些 要 求 的 值 可 以 在 公式 (9.14) 中 选择 


m = 0. l 
rz = 1000 
而 得 到 满足 。 
。 邻 域 函数 ,mn) 的 初始 化 应 包括 以 获胜 神经 元 i 为 中 心 的 几乎 所 有 神经 元 ， 然后 随时 
间 慢 慢 收 缩 。 | 


具体 来 说 ， 排 序 阶 段 可 能 需要 1000 次 迭代 或 更 多 ， 人 允许 hj.;(n) 减 少 到 仅 有 围绕 获胜 神经 元 
的 少量 邻居 神经 元 的 小 的 值 或 者 减少 到 获胜 神经 元 自身 。 假定 对 离散 映射 使 用 神经 元 二 维 网 格 ， 
则 我 们 可 以 设 定 邻 域 函 数 的 初始 值 oo 等 于 网 格 的 半径 。 相 应 地 我 们 设 定 式 (9. 6 的 时 间 常 数 ， 


_ 1000 
logo, 


2. kA., A AME E L Bee a Wa ERAN A T ea A 2 E HE A SE Hj 
而 且 ， 达 到 收敛 所 需要 的 迭代 次 数 强 烈 依 赖 于 输入 空间 的 维 数 。 作 为 一 般 性 规则 ;组 成 收敛 阶 
段 的 迭代 次 数 至 少 是 网 络 中 神经 元 数 上 月 的 500 售 。 这 样 收敛 阶段 可 能 进行 几 千 次 以 至 上 万 次 的 
迭代 。 学 习 率 参数 的 选择 和 邻 域 函 数 可 以 如 下 实现 。 

。 对 于 好 的 统计 精度 ， 在 收敛 阶段 学 习 参 数 wn) 应 该 保持 在 较 小 的 值 上 ， 为 0.01 数量 ， 

级 。 无 论 如 何 ， 不 允许 它 下 降 到 零 ; 否则 ， 网 络 会 陷入 到 亚 稳 定 状 态 。 亚 稳定 状态 
(metastable state) 属于 有 拓扑 缺陷 的 特征 映射 结构 。 式 (9. 14) 的 指数 衰减 保证 不 可 能 

。 SRM hj,ii 应 该 仅 包 括 获 胜 神经 元 的 最 近邻 域 ， 最 终 减 到 一 个 或 零 个 邻 域 神经 元 。 
作为 另 一 个 评论 : 在 讨论 排序 和 收敛 问题 时 ， 我 们 强调 了 完成 这 一 过 程 需要 的 迭代 次 数 。 然 
而 ， 在 一 些 软 件 包 中 ， 回 合 ( 而 不 是 迭代 ) 被 用 于 描述 这 两 个 问题 。 


SOM 算法 小 结 

Kohonen 的 SOM 算法 的 本 质 是 用 一 个 简单 的 几何 计算 代 蔡 类 Hebb 规则 的 复杂 性 质 和 侧 
向 相互 作用 。 算 法 的 主要 构成 /参数 有 

。 根据 一 定 概率 分 布 产 生 激活 模式 的 连续 输入 空间 。 

， 以 神经 元 的 网 格 形式 表示 的 网 络 拓扑 ， 它 定义 一 个 离散 输出 空间 。 

。 在 获胜 神经 元 ix) 周围 定义 随时 间 变化 的 邻 域 函 数 ic (nz)。 

。 学 习 率 参数 y(n) 的 初始 值 是 加 ， 然 后 随 着 时 间 递减， 但 永 不 为 零 。 

对 于 邻 域 函数 和 学 习 率 参数 ， 在 排序 阶段 〈 即 开始 的 大 约 1000 KER 我 们 分 别 使 用 
RO. 7) 和 式 (9. 14) 。 为 了 好 的 统计 精度 ， 在 收敛 阶段 7(z) 的 相当 长 的 时 间 内 应 该 保持 一 个 较 
小 值 0. 01 或 更 小 )， 一 般 为 几 千 次 从 代 。 对 于 邻 域 函 数 ， 在 收 化 阶段 之 初 ， 它 应 仅 包含 获胜 





T] 
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神经 元 的 最 近 的 邻 域 ， 并 且 最 终 缩减 到 一 个 或 零 个 邻 域 神 经 元 。 
在 初始 化 后 算法 的 应 用 中 涉及 三 个 基本 步 又: 取样、 相似 性 匹配 和 更 新 。 重 复 这 三 个 步骤 
直到 完成 特征 映射 的 形成 。 算 法 总 结 如 下 : 
1. 初始 化 。 对 初始 权 值 向 量 w (0) 选 择 随机 值 。 这 里 唯一 的 限制 是 j= 1,2,…,! ，w, (0) 
互 不 相同 ， 其 中 i 是 网 格 中 神经 元 的 数目 。 可 能 希望 保持 较 小 的 权 值 。 
男 一 种 算法 初始 化 方法 是 从 输入 问 量 4x :的 可 用 集 里 随机 选择 权 值 向 量 《w (0)});-1。 这 
一 不 同 选择 的 优势 在 于 初始 映射 将 在 最 终 映 射 的 范围 内 。 
2. 取样 。 以 一 定 概率 从 输入 空间 取样 本 x; 向 量 x 表示 应 用 于 网 格 的 激活 模式 。 向 量 x 的 
维 数 等 于 m, 
3. 相似 性 匹配 。 在 时 间 步 n 使 用 最 小 距离 准则 寻找 最 匹配 (获胜 ) 的 神经 元 ICx) : 
i(X) = arg min | x) — w; ||, p= 12s 
4. 更 新 。 通 过 用 更 新 公式 调整 所 有 神经 元 的 权 值 向 量 : 
wint D = w a ym hw M Oan) — wj Cn)) 
其 中 w(n) 是 学 习 率 参数 ，hj.io, (n) 是 获胜 神经 元 O) AR A Be 为 了 获得 最 好 的 结果 ， 
n(n) FA hij icy (四 在 学 习 过 程 中 是 动态 变化 的 。 
5. 继续 。 继 续 步 又 2 直到 在 特征 映射 里 观察 不 到 明显 的 变化 为 上 上 。 


9.4 特征 了 映射 的 性 质 


— H SOM 算法 收 化， 由 算法 计算 的 特征 映射 显示 输入 空间 的 重要 统计 特性 。 7 
开始 令 久 表示 空间 的 连续 输入 (数据) FM, CMR CLEAREX., OA 
表示 空间 的 离散 输出 空间 ， 其 拓扑 由 安排 一 组 神经 元 作为 网 格 的 计算 节点 来 赋予 。 令 表示 称 
为 特征 映射 的 非 线性 变换 ， 它 映射 输入 空间 多 到 输出 〈 即 网 格 ) 空间 x， 表 示 为 
D:% > A (9. 15) 
式 (9. 15) 可 看 成 式 (9. 3) 的 抽象 ， 式 (9.3) 定 义 为 响应 输入 向 量 x 而 产生 的 获胜 神经 元 i(X) 的 位 
置 。 例 如 ， 在 神经 生物 学 中 输入 空间 多 可 以 表示 密布 于 整个 体 表 面 的 体感 觉 接 收 器 的 坐标 集 。 
相应 地 ， 输 出 空间 gg 表示 体感 觉 接收 器 投影 到 的 人 脑 皮 层 中 的 神经 元 集 。 
给 定 输入 向 量 z, SOM 算法 首先 根据 特征 映射 
D 确定 在 输出 空间 x4 中 的 最 佳 匹配 或 获胜 神经 元 
i(x) 。 神 经 元 i(x) 的 突 触 权 值 向 量 w, 可 以 视 为 神经 
元 指向 输入 空间 多 的 指针 。 
因此 ， 如 图 9. 4 所 示 ，SOM 算法 包含 了 两 个 定 
义 了 该 算法 的 成 分 : 
© 从 连续 输入 空间 8 到 离散 输出 神经 元 空间 尺 
的 投影 。 根 据 9. 3 节 中 算法 小 结 的 相似 性 匹 
配 步 〈 即 第 三 步 )， 输 入 回 量 被 映射 到 网 格 
结构 的 “获胜 神经 元 ”。 
。 从 输出 空间 回 到 输入 空间 的 指针 。 实 际 
上 ， 由 获胜 神经 元 的 权重 向 量 所 定义 的 指 
针 表 示 输 入 数据 空间 中 的 一 个 特别 点 ， 这 
个 点 可 作为 获胜 神经 元 的 映像 ， 这 一 操作 
是 根据 算法 小 结 中 的 更 新 步 《〈 即 第 4 HD 图 9.4 ”特征 映射 和 获胜 神经 元 i 权 值 
JER SER Haw, 的 关系 图 


离散 输出 
23 |B] sf 


空间 8 
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换 句 话说 ， 在 存在 着 网 格 神经 元 的 输出 空间 和 产生 样 例 的 输入 空间 之 间 有 着 反 向 或 前 向 的 
通信 。 
SOM 算法 有 下 面 将 要 讨论 的 一 些 重 要 性 质 。 
性 质 1 输入 空间 的 近似 
由 输出 空间 内 的 突 触 权 值 向 量 {wWi)} 的 集合 表示 的 特征 映射 盏 对 输入 空间 多 提供 一 个 好 的 近似 。 
SOM 算法 的 基本 目标 是 通过 寻找 原型 w; € of 编码 
的 一 个 较 小 的 集合 存储 输入 向 量 zE& 的 一 个 大 集 输入 向 量 eS 
合 ， 从 而 对 原始 输入 空间 % 提 供 一 个 好 的 近似 。 刚 
才 描 述 的 思想 的 理论 基础 植 根 于 向 量 量化 理论 
(vector quantization theory)， 它 的 动机 是 维 数 的 





削减 或 者 是 数据 的 压缩 (Gersho and Gray, 重 构 向 量 
1992)。 因 此 给 出 这 个 理论 的 简要 讨论 是 适宜 的 。 vo ZE 

考虑 图 9. 5， 其 中 c(x) 作 为 输入 向 量 x 的 编码 图 9. 5 ”描述 SOM 模型 性 质 1 的 
器 而 x (ec) 作为 eC 的 解码 器 。 向 量 x 从 满足 固有 概 编码 器 一 解码 器 模型 


率 密度 函数 pO RURE 〈 即 输入 空间 &%) 中 随 
机 选择 。 通 过 变化 函数 cCx) 和 x (c) 决 定 最 优 编码 一 解码 方案 使 得 极 小 化 由 


D= H px (x) d(x, x") dx (9. 16) 


定义 的 期 望 失真 ， 其 中 引 和 因子 元 是 为 了 表达 方便 ，d(x,x') BAH (distortion) 度量。 积分 


在 假定 维 数 为 m 的 整个 输入 空间 史上 进行 ， 因 此 在 式 (9.16) 中 使 用 了 微分 变量 dx。 失真 度量 
d(x,x) 的 一 个 常用 选择 是 输入 向 量 x 和 重建 向 量 x' 之 间 的 欧 几 里 得 距离 的 平方 ; 即 

d(x,x’) = |x yx |}? = (x— x’) (x—x) (9.17) 
这 样 我 们 可 把 式 (9. 16) 重 写 为 : 


D= 二 | px |x —x’ || ?dx (9. 18) 
期 望 失真 DD 最 小 化 的 必要 条 件 包 含 在 广义 Lloyd 算法 中 (Gersho and Gray，1992)。 条 件 是 


两 方面 的 : 
条 件 1 给 定 输入 向 量 x， 选 择 编 码 c 二 c(x) 使 其 最 小 化 平方 误差 失真 上 x 一 x (ce) ||’. 
条 件 2 给 定编 码 c， 计 算 重 构 向 量 X 一 x'(C) 作 为 满足 条 件 1 的 输入 向 量 X 的 中 心 。 
条 件 1 称 为 最 近邻 编码 规则 。 条 件 1 和 2 意味 着 平均 失真 D 关于 编码 器 COO 和 解码 郁 


x'(e) 各 自 的 变化 是 稳定 的 〈 即 在 局 部 极 小 ) 。 为 了 
实现 向 量 量 化 ,广义 Lloyd 算法 以 批量 训练 方式 
进行 。 基 本 上 ， 算 法 是 交替 按照 条 件 1 优化 编码 
器 c(x) 和 按照 条 件 2 优化 解码 器 x (c) ， 直 到 期 望 
失真 DD 达到 一 个 最 小 。 要 克服 局 部 最 小 化 问题 ， 
可 能 需要 以 不 同 初 值 运行 广义 Lloyd 算法 若干 次 。 

广义 Lloyd 算法 和 SOM 算法 紧密 相关 ， 如 
Luttrell (1989b) 所 示 。 可 以 通过 考虑 图 9.6 Bras 
的 系统 描述 这 种 关系 的 形式 ， 其 中 在 编码 器 c(x) BA A 
之 后 我 们 引 人 了 独立 于 数据 的 噪声 过 程 。 噪 声 v， 
附加 在 编码 器 和 解码 器 之 间 的 虚构 的 “通信 信道 ” 9. 6 噪声 编码 器 一 解码 器 模型 
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期 望 失真 的 一 种 修正 形式 


D = 3| aof GUY Nise CEG wa dvd (9. 19) 


其 中 r(Cv) 为 加 性 噪声 v 的 概率 密度 函数 (pdf) ， 内 部 积分 是 对 这 个 噪声 的 所 有 可 能 实现 之 上 的 
积分 ， 因 而 在 式 (9. 19) 中 使 用 了 增加 变量 dv, 
根据 广义 Lloyd 算法 描述 的 策略 WE 9.6 所 示 的 模型 可 考虑 两 个 不 同 的 优化 ， 一 个 属于 
编码 器 而 另 一 个 属于 解码 器 。 为 了 找到 给 定 x 的 最 优 编码 器 ， 我 们 需要 期 望 失真 度量 站 对 编 
码 向 量 e 的 偏 导 数 。 利 用 式 (9. 19) ， 可 得 
aD, 
oc 
为 了 找到 给 定 e 的 最 优 解 码 器 ， 我 们 需要 期 望 失真 度量 Di 对 解码 向 量 x《c) 的 偏 导 数 。 利 用 式 
(9. 19) ， 可 得 


IE 
一 


= Laow] xv) 2 | x= x Ce) |]? | cordy (9. 20) 


aD, 
ox (c) 


因此 ， 根 据 式 (9. 20) 和 式 (9.21)， 以 前 陈述 的 广义 Lloyd 算法 的 条 件 1 和 条 件 2 必须 修改 如 下 
(Luttrell, 1989b): 
SE] 给 定 输 入 向 量 X， 选 择 编 码 c 一 c(X) 使 其 最 小 化 失真 度量 


D, = 上 rív) || x —x’ (e(x) + vy) || ee (9. 22) 
ZA BER, HAEHAE x (ec) 使 其 满足 条 件 
| px (x) r(e — e(x))xdx 


x (c) = 





on i E E E (9. 21) 


= (9. 23) 
| pee ECO dx 


令 式 (9. 21) 中 的 偏 导数 OD, /dx' (ec) 为 0， 然 后 解 出 xc) 可 得 式 (9. 23), 
图 9. 5 描述 的 模型 可 作为 图 9.6 描述 的 模型 的 特殊 情形 。 特 别 地 ， 如 果 令 了 曝 声 v 的 概率 密 
度 函 数 x(v) 等 于 Dirac delta 函数 Ov), KEL MAEM ABBE MK Lloyd 算法 的 条 件 1 
和 条 件 2。 
为 了 简化 条 件 工 ， 假 定 xCy) 为 v 的 光滑 函数 。 可 以 证 明 式 (9. 22) 定 义 的 失真 度量 D: 的 二 
阶 近似 包含 两 项 (Luttrell，I989b) : 
。 常规 失真 项 ， 由 平方 误差 失真 上 x 一 x (c) |7 定义 。 
。 由 噪声 模型 x(v) 引 起 的 曲率 (curvature) M, 
假设 曲率 项 小 ， 对 于 图 9. 6 的 模型 条 件 工 可 以 近似 为 图 9. 5 的 无 噪声 模型 的 条 件 工 。 DOF 
又 使 条 件 工 变 成 以 前 的 最 近邻 编码 规则 。 
至 于 条 件 册 ， 可 以 使 用 随机 下 降 学 习 来 实现 。 具 体 地 ， 根 据 px (x) 从 输入 空间 随机 选择 
输入 向 量 x， 并 且 更 新 重 构 向 量 xc) 如 下 ， 
Xow CC) < xha Ce) + grle — elx) Ex ~— Xaa CC) J (9. 24) 
其 中 7 为 学 习 率 参 数 ，e(x) 为 条 件 工 的 最 近邻 编码 近似 。 更 新 式 (9, 24) 由 检查 式 (9. 21) Aes 
数 可 得 。 这 个 更 新 应 用 于 所 有 的 c， 对 此 我 们 有 
x(e—e(x)) > 0 (9. 25) 
可 以 认为 式 (9. 24) 描 述 的 梯度 下 降 过 程 为 式 (9. 19) 的 失真 度量 Di 的 一 种 最 小 化 方法 。 也 就 是 
说 ， 式 (9. 23) 和 式 (9. 24) 本 质 上 是 同类 型 的 ， 区 别 在 于 式 (9. 23) 为 批量 方式 的 而 式 (9. 24) 为 连 
续 的 方式 〈 即 经 过 流 的 方式 )。 
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更 新 式 (9. 24) 等 同 于 式 (9. 13) 的 (连续 ) SOM 算法 ， 记 住 在 表 9. 1 中 所 列 的 对 应 关系 。 因 
此 ， 可 以 说 用 于 问 量 量化 的 广 闵 Lloyd 算法 为 表 9.1 在 SOM 算法 和 图 9.6 的 模型 之 间 的 对 应 关系 


具有 零 邻 域 大 小 的 SOM 算法 的 批量 训练 模 图 9. 6 的 编码 器 一 解码 器 模型 SOM 算法 
式 ; 对 零 邻 域 ，r(0) 一 1。 注 意 ， 为 了 从 SOM ”编码 器 ex) 最 佳 匹配 神经 元 io 
算法 的 批量 方式 得 到 广义 Lloyd 算法 我 们 无 需 重 构 向 量 x’ Ce) 突 触 权 值 向 量 wj 


作 任 何 近 似 ， 因 为 当 邻 域 为 0 宽度 时 曲率 项 概率 密度 函数 zc 一 ex)) AB BBB BE 局 ,ta 
(和 所 有 高 阶 项 》 不 起 任何 作用 。 T 

下 面 给 出 这 里 的 讨论 所 需 注 意 的 重要 之 处 ， 

1. SOM 算法 为 向 量 量化 算法 ， 它 提供 输入 空间 史 的 良好 近似 。 这 个 观点 提供 了 导出 SOM 
算法 的 另 一 种 途径 ， 如 式 (9. 24) 的 示例 。 

2. 根据 这 个 观点 ，SOM 算法 中 的 邻 域 函 数 hio 有 一 个 概率 密度 函数 的 形式 。 在 Luttrell 
(1991a)， 考 虑 对 图 9. 6 的 模型 中 噪声 v 而 言 合适 的 零 均 值 高 斯 模型 。 因 此 我 们 对 采用 式 (9. 4) 
的 高 斯 邻 域 函数 又 有 了 一 个 理论 依据 。 

用 求 和 作为 对 式 (9. 23) 右 端的 分 子 和 分 母 的 积分 的 近似 ， 批 量 SOM 仅仅 是 式 (9. 23) 的 重 
写 。 注 意 在 SOM 算法 的 这 种 形式 中 ,输入 模式 呈现 给 网 络 的 磊 序 对 特征 映射 的 最 终 形式 没有 
影响 ， 且 无 需 学 习 率 调度 。 但 算法 仍 需 利用 邻 域 困 数 。 

性 质 2 拓扑 排序 

通过 SOM 工法 计算 的 特征 映射 钙 是 拓扑 有 序 的 ， 意 味 着 网 格 中 神经 元 的 空间 位 置 对 应 于 
输入 模式 的 特定 区 域 或 特征 。 

拓扑 排序 的 特性 * 是 更 新 公式 (9. 13) 的 直接 结果 ， 它 使 获胜 神经 元 ix) 的 权 值 向 量 w 移 问 
输入 向 量 x。 它 同样 对 于 获胜 神经 元 ix) 近邻 的 神经 元 7 的 突 触 权 值 向 量 w 的 移动 有 作用 。 因 
此 我 们 可 以 将 特征 映射 看 成 一 个 弹性 网 或 虚拟 网 ， 它 有 在 输出 空间 中 描述 的 一 维 或 二 维 的 
网 格 ， 并 且 它 的 节点 具有 权 值 作为 输入 空间 多 中 的 坐标 “Ritter，1995)。 因 此 算法 的 总 的 目标 
可 以 陈述 如 下 : 

指针 或 原型 以 突 能 权 值 向 量 w 的 形式 逼近 输入 空间 喷 ， 使 得 特征 映射 皇 以 这 样 一 种 方式 
提供 根据 某 个 统计 准则 而 言 表征 输入 向 量 XE 叶 的 重要 特征 的 可 信赖 表示 。 

特征 映射 通常 在 输入 空间 包 中 显示 。 具 体 地 ， 所 有 的 指针 〈 即 突 触 权 向量 ) 显示 为 点 ， 
相 邻 神经 元 的 指针 按照 网 格 的 拓扑 用 线 相 连 。 因 此 ， 使 用 连 线 将 两 个 指针 w 和 w; EEK, R 
示 相 应 神经 元 i 和 j 在 网 格 中 是 相 邻 神经 元 。 

性 质 3 密度 匹配 

特征 映射 四 反映 输入 分 布 在 统计 上 的 变化 : 在 输入 空间 史 中 样 本 向 量 X 以 高 的 概率 抽取 的 区 
域 映 射 到 输出 空间 的 更 大 区 域 ， 从 而 比 在 吧 中 样本 向 量 x 以 低 的 概率 抽取 的 区 域 有 更 好 的 分 辩 率 。 

S px(Cx) 表 示 随 机 和 输 人 向 量 x 的 多 维 概率 密度 函数 。 由 定义 ， 这 个 pd 在 整个 输入 空间 上 
的 积分 必须 等 于 1; 

| adx =j 
令 m(x) 表 示 映 射 放大 (magnification) 因子 ,定义 为 输入 空间 多 的 小 体积 dx 中 的 神经 元 个 数 。 
放大 因子 在 整个 输入 空间 的 积分 一 定 等 于 网 络 中 的 神经 元 总 数 :!， 即 

| moods =: (9. 26) 
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对 于 准确 匹配 输入 密度 的 SOM 和 算法， 我们 要 求 (Amari, 1980) 
m(x) oc px (x) (9. 27) 
这 个 性 质 意味 着 ， 如 果 输 入 空间 中 的 一 个 特殊 区 域 包含 经 常 发 生 的 刺激 ， 那 么 与 刺激 出 现 较 少 
的 输入 空间 的 区 域 相 比 ， 它 将 用 特征 映射 中 更 大 的 区 域 表 示 。 
一 般 地 ， 在 二 维特 征 映射 中 放大 因子 m(x) 不 能 表示 为 输入 向 量 x 的 概率 密度 画 数 px CX) 
的 一 个 简单 函数 。 只 有 在 一 维特 征 映射 时 才 可 能 导出 这 样 的 关系 。 对 这 种 特殊 情况 ， 我 们 发 现 
与 早 些 的 推测 (Kohonen, 198 相反 ， 它 的 放大 因子 m(x) 并 不 与 px(x) 成 比例 。 基 于 采用 的 
编码 方法 ， 在 文献 中 报告 了 两 种 不 同 的 结果: 
1. 最 小 失真 编码 ， 根 据 这 个 编码 ， 式 (9. 22) 的 失真 测度 中 的 曲率 项 和 高 阶 项 由 于 噪声 模 
型 x(V) 仍 然 保留 。 这 种 编码 方法 可 以 产生 结 术 : 
m(x) cc px’ Cx) (9. 28) 
这 与 标准 的 向 量 量 化 器 得 到 的 结果 相同 (Luttrell，1991a)。 
2. 最 近 令 编码， 如 同 在 SOM 算法 的 标准 形式 中 ， 它 出 现在 忽略 曲率 项 的 时 候 。 这 个 编码 
方法 产生 结果 (Ritter，1991) 
m(x) cc px (x) (9. 29) 
我 们 前 面 关于 一 族 经 常 发 生 的 刺激 可 以 在 特征 映射 中 由 更 大 的 区 域 来 表示 的 陈述 仍然 成 立 ， 虽 
然 是 用 式 (9. 27) 中 描述 的 理想 条 件 的 失真 形式 。 
作为 一 个 一 般 规则 (被 计算 机 仿真 确认 )， 由 SOM 算法 计算 的 特征 映射 往往 趋向 于 过 高 
表示 低 输 入 密度 区 域 和 过 低 表 示 高 输入 密度 区 域 。 换 句 话说 ，SOM 算法 不 能 为 输入 数据 固有 
的 概率 分 布 提供 可 信赖 的 表示 “”。 
PEW 4 特征 选择 
从 输入 空间 中 给 定数 据 ， 自 组 织 映 射 能 够 为 逼近 固有 分 布 选择 一 组 最 好 的 特征 。 


这 个 性 质 是 性 质 1 至 性 质 3 的 自然 结论 。 性质 4 使 人 想起 前 一 章 讨论 的 主 分 量 分 析 的 思 
想 ， 但 是 如 图 9.7 所 示 ， 它 们 有 一 个 重要 的 区 别 。 在 图 9. 7a 中 展示 被 加 性 噪声 损坏 的 线性 输 
入 一 输出 上 映射 导出 的 零 均 值 数 据点 的 二 维 分 布 。 这 种 情况 下 ， 主 分 量 分 析 工 作 得 很 好 : 它 告 诉 
我 们 ， 在 图 9. 7a 中 的 “线性 ”分 布 的 最 好 描述 是 ， 定 义 成 通过 原点 上 且 平行 于 数据 相关 和 矩阵 的 
最 大 特征 值 对 应 的 特征 向 量 平行 的 直线 〈 即 一 维 的 “ 超 平面 ?) 。 接 下 去 考虑 图 9. 7b 所 描述 的 
情况 ， 这 是 受 零 均值 加 性 噪声 损坏 的 非 线性 输入 一 输出 映射 的 结果 。 在 这 第 二 种 情形 从 主 分 其 
分 析 计 算 的 直线 逼近 不 可 能 提供 可 接受 的 数据 描述 。 另 一 方面 ， 利 用 建立 在 一 维 神经 元 网 格 的 
自 组 织 映射 则 由 于 它 的 拓扑 有 序 性 质 能 够 克服 这 个 逼近 问题 。 在 图 9. 7b 中 说 明 的 后 一 个 远近 
Re ra in ime? EERO ER nee mete 





图 9.7 a) 线性 输入 -输出 映射 产生 的 二 维 分 布 ; b) 非 线性 输入 -输出 映射 产生 的 二 维 分 布 
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95 计算 机 实验 I: 利用 SOM 解 网 格 动力 学 问题 


I. 由 二 维 分 布 驱 动 的 二 维 网 格 

我 们 使 用 计算 机 仿真 来 说 明 SOM 算法 的 行为 ， 通 过 研究 576 个 神经 元 组 成 的 网 络 ， 排 列 
成 24 行 和 24 列 的 二 维 网 格 。 网 络 用 二 维 输入 向 量 x 训练 ， 它 的 分 量 z 和 zz 均匀 分 布 在 区 域 
(OIK a KEL; (C1 <ar < 过 十 1)} 上 。 为 了 初始 化 网 络 ， 突 触 权 值 从 一 个 随机 集合 抽取 ，。 

图 9. 8 显示 训练 网 络 学 习 表 示 输 入 分 布 的 三 个 阶段 。 图 9. 8a 显示 用 来 训练 特征 映射 的 数 
据 的 均匀 分 布 。 图 9. 8b 显示 随机 抽取 的 突 触 权 值 的 初始 值 。 图 9. 8c 和 图 9. 8d 分 别 表 示 了 在 
排序 阶段 和 收敛 阶段 完成 后 相应 的 由 SOM 算法 计算 得 到 的 24X24 上 映射。 如 前 面 性 质 2 所 讨论 
的 那样 ， 在 图 9.8 中 将 网 络 中 相 邻 神经 元 用 线 连 起 来 〈 通 过 行 和 列 ) 。 

图 9. 8 所 示 的 结果 展现 表征 SOM 算法 学 习 过 程 特 点 的 排序 阶段 和 收敛 阶段 。 图 9. 8c 显示 
排序 阶段 ， 映 射 展开 形成 的 网 格 。 在 这 个 阶段 之 后 神经 元 映射 为 正确 的 排序 。 在 收敛 阶段 映射 
散 开 充满 输入 空间 。 在 第 二 阶段 结束 后 ， 如 图 9. 8d 所 示 ， 映 射 中 神经 元 的 统计 分 布 接 近 输 入 
问 量 的 分 布 ， 除 了 一 些 变形 之 和 外。 比较 图 9. 8d 中 特征 映射 的 最 终 状态 和 图 9. 8a 的 输入 均匀 分 
M. 我 们 看 出 收敛 阶段 映射 的 调整 抓 住 了 可 在 输入 分 布 中 看 到 的 局 部 不 规则 性 ，。 

SOM 算 法 的 拓扑 排序 性 质 在 图 9. 8d 得 到 很 好 说 明 。 尤 其 观察 到 算法 (在 收敛 之 后 ) 抓 住 了 
输入 中 均匀 分 布 的 固有 拓扑 。 图 9. 8 所 示 的 计算 机 仿真 中 输入 空间 史 和 输出 空间 x 都 是 二 维 的 。 
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图 9.8 a) 输入 数据 分 布 。b) 二 维 网 格 初始 情况 。c) 排序 阶段 之 后 网 格 情况 。 
d 收敛 阶段 之 后 网 格 情况 。 在 映射 b) c) d) SFM RERE 
I . 由 二 维 刺激 驱动 的 一 维 网 格 
我 们 现在 考查 当 输 入 空间 的 维 数 大 于 输出 空间 六 的 维 数 的 和 情况。 尽管 不 匹配 ， 特 征 上 映射 
常常 能 形成 输入 分 布 的 拓扑 表示 。 图 9. 9 显示 在 特征 映射 演化 过 程 中 的 三 个 不 同 的 阶段 ， 它 
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的 初始 化 如 图 9. 9b 所 示 ， 从 如 图 9. 9a 所 示 和 矩形 中 抽取 数据 进行 训练 ， 但 是 ， 这 一 次 计算 是 在 
100 个 神经 元 的 一 维 网 格 中 进行 的 。 图 9. 9c 和 图 9. 9d 分 别 表 示 排 序 和 收 伍 之 后 的 特征 映射。 
这 里 我 们 看 到 为 了 尽 可 能 紧密 地 填充 矩形 从 而 提供 二 维 输入 空间 的 固有 拓扑 的 良好 近似 ， 用 
算法 计算 的 特征 映射 是 非常 失真 的 。 在 图 9.9d 所 示 的 近似 曲线 类 似 于 Peano Hé (Peano 
curve)(Kohonon，1990a)。 以 图 9. 9 的 特征 映射 为 例 的 这 种 运算 被 称 为 维 数 肖 减 Cdimension- 
ality reduction) ， 其 中 输入 空间 多 由 将 它 投影 到 的 低 维 输出 空间 汉 来 表示 。 





时 间 =0 
a) AAHH bò (初始 权 值 》 





时 间 =50K 时 间 =100K 
c) 《排序 阶段 ) d) 《收敛 阶段 ) 


图 9.9 a) 二 维 输入 数据 分 布 ; b) 一 维 网 格 初 始 情 况 ; c) 排序 阶段 之 后 的 网 格 和 情况 ; 
d) 收 伍 阶段 之 后 的 网 格 情 况 。 在 映射 bp}、c)、d) 之 下 的 时 间 表 示 迭 代 次 数 


9.6 上 下 文 映射 


自 组 织 特征 映射 有 两 种 明显 不 同 的 可 视 化 方法 。 在 一 种 可 视 化 方法 中 ， 特 征 上 映射 钻 视 为 有 
弹性 的 网 络 ， 此 时 向 量 权 值 被 视 为 对 应 神经 元 的 指针 ， 指 向 输入 空间 。 这 种 可 视 化 方法 特别 适 
用 于 显示 SOM 算法 的 拓扑 排序 属性 ， 如 9. 5 节 给 出 的 计算 机 仿真 实验 结果 所 说 明 。 

在 第 二 种 可 视 化 方法 中 ， 对 二 维 网 格 (表示 网 络 的 输出 层 ) 的 神经 元 赋予 类 别 标号 ， 它 取 
决 于 每 个 测试 模式 (以 前 未 见 过 ) 如 何 激活 自 组 织 网 络 中 的 特定 神经 元 。 作 为 仿真 第 二 阶段 的 
结果 ， 二 维 网 格 中 的 神经 元 被 前 分 成 许多 相干 区 域 (coherent region)， 相 干 的 含义 是 神经 元 每 
个 分 组 表示 邻接 符号 或 标号 的 一 个 独特 的 集合 (Ritter，2003) 。 这 里 首先 假定 产生 良 序 的 特征 
映射 的 正确 条 件 成 立 。 

例如 ， 考 虑 表 9. 2 中 给 出 的 数据 集合 ， 它 们 是 关于 16 种 不 同 动物 的 。 表 的 每 一 列 是 对 动 
物 的 示意 性 描述 ， 它 是 根据 左边 13 个 不 同 的 属性 的 出 现 〈 二 1) 或 不 出 现 〈 二 0) 而 描述 。 一 
些 属 性 例如 “羽毛 ”和 “两 条 腿 ” 是 相关 的 ， 而 其 他 许多 属性 是 不 相关 的 。 对 表 头 给 出 的 每 个 
动物 ， 它 的 属性 代码 x 是 由 13 个 属性 构成 。 动 物 本 身 由 符号 代码 x, 指定 ， 符 号 代码 的 组 成 必 
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须 不 表达 动物 的 任何 信息 或 它们 之 间 已 知 的 相似 点 。 例 如 当前 的 例子 ，x 是 由 一 个 列 向 量 构 成 ， 
它 的 第 个 元 素 ， 表 示 动 物 & 二 1,2,…,16 ， 赋 予 一 个 固定 值 a; 剩 下 的 元 素 都 置 成 0。 参数 a 与 
属性 代码 比较 而 言 决 定 符号 代码 之 间 的 相关 影响 。 为 了 确定 属性 代码 是 重要 的 ，a 选择 为 0.2。 
每 个 动物 的 输入 向 量 x 是 29 个 元 素 的 向 量 ， 表 示 属 性 代码 x 和 符号 代码 x 的 联合 ， 表 示 为 
X, X, 
aa A 
最 后 ， 每 个 数据 向 量 都 被 归 一 化 为 单位 长 度 。 这 样 产 生 的 数据 集 的 模式 被 呈现 给 10X10 的 二 维 
神经 元 网 格 ， 神 经 元 的 权 值 按照 9. 3 节 中 阐述 的 SOM 算法 调整 。 训 练 连续 进行 2 000 RIE, It 
时 特征 映射 应 该 达到 一 个 稳定 状态 。 接 着 ， 由 一 个 动物 包含 的 符号 代码 x == [x,,0]" 定义 的 测试 模 
式 呈现 给 自 组 织 网 络 ， 并 且 确 定 具有 最 强 响应 的 神经 元 。 对 所 有 的 16 种 动物 都 重复 这 样 做 。 
表 9.2 动物 的 名 称 和 它们 的 属性 











动物 BrT 和 母 鸡 OG EO HARE OB E ME 狗 A HK E MW 3 BS H+ 
小 型 1 1 1 1 i 0 0 0 o 1 0 0 0 0 0 
为 | 中 型 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 
大 型 0 0 0 0 0 0 0 0 oO oO oO 1 1 i 1 1 

2 条 腿 ] 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 

4 Se RB 0 0 0 0 0 0 0 1 i 1 1 1 1 4 1 1 

| 毛发 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 
有 蹄 0 0 0 0 0 0 0 0 0 0 0 0 0 1 .1 1 
g 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 
at 1 1 1 1 1 1 ] 0 0 0 0 0 0 0 98 0 
猎 食 0 0 0 0 1 1 1 1 ea. a G tt go “6 0 
奔跑 0 0 0 0 0 0 0 0 | 1 0 
HK | -入 1 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 
游泳 0 0 1 1 0 0 0 0 0 0 0 0 0 0 @ 0 








按 刚才 陈述 的 方法 处 理 ， 我 们 得 到 如 图 9. 10 所 示 的 映射， 其 中 标记 名 称 的 神经 元 代表 它 
们 对 各 自 的 测试 模式 有 最 强 的 响应 ， 图 中 未 被 占据 的 矩形 空间 表示 有 较 弱 的 响应 的 神经 元 。 





图 9.10 ”包含 对 它们 各 自 输入 具有 最 强 响应 的 标定 神经 元 的 特征 映射 


图 9. 11 对 相同 的 自 组 织 网 络 显示 “模拟 电极 渗透 映射 ”的 结果 。 但 是 ， 图 中 网 络 的 每 个 
神经 元 用 使 之 产生 最 好 响应 的 特定 动物 名 称 标记 。 图 9. 11 清楚 地 表明 在 16 个 不 同 的 动物 中 特 
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征 映射 能 抓 住 “种 属 关系 "。 这 里 有 三 个 不 同 的 聚 类 ， 第 一 个 表示 “ 鸟 类 ”， 第 二 个 表示 “平和 
的 种 属 ”， 第 三 个 表示 “猎手 ”。 


I( 


STO R MAN 


STO “猫头鹰 ”猫头鹰 


猫头鹰 ”猫头鹰 
0 | 2 3 4 5 6 7 8 9 10 


图 9. 11 利用 “模拟 电极 渗透 映射 ”的 语义 映射 。 映 射 被 分 成 三 个 不 同 区 域 ， 
分 别 代表 岛 类 (白色 )、 平 和 种 属 〈 浅 灰色 〉 及 猎手 (灰色 ) 


图 9. 11 表示 的 特征 映射 类 型 称 为 上 下 文 映射 或 语义 映射 Ritter,2003)。 这 个 映射 与 大 脑 
皮质 的 映射 相似 〈 即 在 大 脑 皮质 里 形成 的 计算 映射 )， 这 在 9. 2 节 中 做 过 简要 讨论 。 作 为 利用 
SOM 算法 产生 的 结果 ， 上 下 文 映射 在 众多 领域 都 有 应 用 ， 诸 如 文本 的 音素 类 别 的 无 监督 分 类 ， 
遥感 (Kohonen，1997a)， 数 据 探测 或 数据 控 据 (Kohonen，1997b)。 


97 分 层 癌 量 量化 


在 9.4 瑟 目 组 织 特征 映射 的 性 质 1 的 讨论 中 ， 我 们 指出 在 向 量 量化 方面 它 与 广义 Lloyd 算 
法 紧密 相关 。 疝 量 量化 是 有 损 Cossy) 数据 压缩 的 一 种 形式 ， 有 损 是 指 一 些 包含 在 输入 数据 
中 的 信息 由 于 压缩 的 结果 丢失 了 。 数 据 压 缩 植 根 于 香农 信息 论 的 一 个 分 支 ， 称 为 率 失真 (rate 
distortion) 理论 (Cover and Thomas，2002)。 上 有 目前 要 处 理 分 层 向 量 量 化 ， 以 陈述 正面 率 失 真 
理论 的 基本 结 末 作为 开始 是 很 适合 的 (Gray，1984): 

通过 获得 向 量 编码 而 不 是 标量 编码 ， 总 是 能 够 取得 好 的 数据 压缩 性 能 ， 即 使 数据 源 是 无 记 
忆 的 (例如 ， 它 提供 一 系列 独立 随机 变量 )， 或 者 数据 压缩 系统 有 记忆 ( 即 编码 器 的 动作 依赖 
于 编码 器 以 前 的 输入 或 输出 )。 

这 一 基本 结果 成 为 数 十 年 来 对 向 量 量 化 的 广泛 研究 工作 的 基础 。 

然而 ， 传 统 的 向 量 量化 算法 要 求 大 量 的 计算 。 向 量 量 化 最 费时 的 部 分 是 编码 操作 。 在 编码 
过 程 中 ， 输入 向 量 必须 与 每 一 个 在 码 书 中 的 代码 向 量 作 比 较 ， 以 便 决 定 哪 一 个 特别 的 代码 产生 
最 小 失真 度 。 例 如 对 于 码 书 包含 N 个 码 向 量 ， 编 码 所 花 的 时 间 依 赖 于 N 的 阶 ， 这 样 对 大 的 N 
值 所 花 时 间 就 多 。 在 Luttrell(1989a) 中 描述 了 一 个 多 阶段 分 层 (multistage hierarchical) 向 
量 量化 虎 ， 它 用 精度 换取 编码 速度 。 多 阶段 分 层 辐 量 量 化 器 试图 将 所 有 的 向 量 量化 过 程 分 解 成 
许多 子 操作 ， 每 个 子 操作 仅 要 求 少 量 的 计算 。 理 想 的 分 解 对 每 个 子 操作 简化 为 简单 的 查 表 。 通 
过 巧妙 地 使 用 SOM 算法 来 训练 量化 器 的 每 一 阶段 ， 准 确 性 的 丢失 可 能 很 少 〈 低 到 几 分 之 一 分 
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W 〈decibel))， 同 时 计算 速度 的 增益 可 能 很 大 。 

考虑 两 个 向 量 量化 器 VQ 和 VQ: ， 其 中 VQ, HEM BH KS VQ. 作为 其 输入 。VQs: 的 
输出 是 应 用 于 VQ 的 原 输 入 信号 的 最 终 编码 形式 。 在 运行 它 的 量化 过 程 中 ，VQ; 不 可 避免 地 
抛弃 一 些 信息 。 就 VQ MA., VQ 仅 有 的 作用 是 扭曲 VQ 输出 的 信息 。 这 样 很 明显 对 VQ 
的 正确 的 训练 方法 是 SOM 算法 ， 它 对 VQ. 诱导 的 信号 失真 负责 (Luttrell,1989a)。 要 使 用 广 
X Lloyd 算法 来 训练 YQ; ， 我 们 仅 需 要 假定 VQ. 的 输出 在 重建 之 前 没有 被 损坏 。 从 而 我 们 无 
需 引 入 品 声 模型 《在 VQ: 的 输出 ) 及 相应 的 有 限 宽度 邻 域 函数 。 

我 们 可 以 推广 这 个 启发 式 的 结论 到 多 阶段 量化 器 。 必 须 设 计 每 一 阶段 使 之 考虑 所 有 的 后 面 阶段 
导致 的 失真 并 且 为 它 建立 噪声 模型 。 因 此 ， | 
使 用 SOM 算法 训练 量化 器 的 所 有 阶段 ， 除 了 
最 后 一 个 阶段 适宜 用 广义 Lloyd 算法 训练 。 

分 层 向 量 量化 过 程 是 多 阶段 回 量 量化 的 
特例 。 作 为 一 种 例证 ， 考 虑 4X1 MAP 

| 
的 量化 。 在 图 9. 12a 中 给 出 用 于 x 的 单 阶 段 
向 量 量化 器 。 另 外 ， 可 以 使 用 如 图 9. 12b 
所 描绘 的 两 阶段 分 层 量化 器 。 这 两 个 模式 
的 重要 区 别 是 在 图 9. 12a 的 量化 器 输入 维 
数 为 4 而 在 图 9.12b 中 它 是 2。 因 此， 图 
9. 12b 的 量化 器 要 求 小 规模 的 查找 表 ， 因 此 
比 图 9. 12a 的 量化 器 实现 简单 。 这 是 分 层 图 9.12 a) 具有 四 维 输入 的 单 阶段 向 量 量化 器 ; b) 使 


用 两 个 输入 的 两 阶段 分 层 向 量 量化 器 ( 摘 日 
Bi Hoa 比 传统 量化 器 优越 之 处 s S. P. Luttrell (1989a), British Crown 版权) 


案例 研究 ”一 阶 自 回 归 模 型 
Luttrell (1989a) 展示 了 多 阶段 分 层 向 量 量化 器 应 用 到 不 同 的 随机 时 间 序 列 的 性 能 ， 编 码 
准确 度 丢 失 很 少 。 在 图 9. 13 中 我 们 利用 一 阶 自 回 归 (AR) 模型 
a(n+1) = pr(n) + vln) (9. 30 ) 
产生 了 具有 相关 高 斯 噪声 过 程 的 Luttrell 的 结果 ， 其 中 6 为 AR 系数 ，v(n) 为 具有 和 零 均值 和 单 
位 方差 的 统计 独立 同 分 布 〈iid) 高 斯 随机 变量 集合 中 取得 。 因 此 我 们 可 以 证 明 x(n) 的 统计 特 
征 如 下 : 








ELx(n) |= 0 oe 
ee a (9. 32) 

I—p 
Elen + x(n) | _ 9. 33 
El xz? (n) | P nade 


因此 。 也 可 看 成 时 间 序 列 (a) 的 相关 系数 。 要 按照 式 (9.30) 初 始 化 生成 的 时 间 序 列 ， 对 
z(0) 使 用 均值 为 零 和 方 盖 为 1/(1 一 p2) 的 高 斯 随机 变量 ， 并 且 相 关系 数 使 用 o 一 0. 85. 

”对 于 向 量 量化 使 用 类 似 于 图 9. 12b 中 的 二 分 树 一 样 具 有 四 维 输入 空间 的 分 层 编码 项 。 对 于 
AR 时 间 序 列 {z(z)》， 平 移 对 称 意味 着 仅 需 两 个 不 同 的 查找 表 。 每 张 表 的 大 小 按 指数 依赖 于 条 
人 比特 数 ， 而 线性 依赖 于 输出 比特 数 。 在 训练 过 程 中 ， 需 要 大 量 比 特 数 表示 式 (9. 24) 描 述 的 更 
新 的 正确 计算 数 ; 这 样 在 训练 期 间 不 使 用 查找 表 。 但 是 一 旦 训练 完成 ， 比 特 数 可 降低 至 它们 的 
正常 水 平 ， 并 且 按 要 求 填 充 表 项 。 对 于 如 图 9. 12b 显示 的 编码 器 ， 每 个 输入 样本 用 4 比特 近 
似 。 对 解码 器 的 各 个 阶段 ， 使 用 N(=17) 个 码 字 向 量 ， 这 样 从 每 个 查找 表 的 输出 比特 数 也 近似 
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为 4。 因 此 第 一 阶段 和 第 二 阶段 的 查找 表 的 地 址 空间 的 大 小 为 256( 王 2 和 )， 这 意味 着 查找 表 
的 表示 所 需 存 储 要 求 是 适中 的 。 

图 9. 13 显示 用 xz(n) 作 为 输入 得 到 的 编码 -解码 结果 。 图 9. 13a 的 下 半 部 分 显示 两 阶段 中 每 
个 阶段 的 编码 向 量 为 一 条 工人 二 维 输入 空间 的 曲线 ; 图 9. 13a 的 上 半 部 分 表示 相应 的 用 16XX16 
比特 的 共生 (co-occurrence) 矩阵 的 合计。 图 9. 13b 表示 如 下 时 间 序 列 片 段 。 

。 由 第 一 个 编码 阶段 计算 的 编码 回 量 。 

。 保持 其 他 变量 固定 ， 由 第 二 阶段 最 小 化 均值 平方 失真 计算 出 的 重 构 回 量 。 

图 9. 13c 显示 512 个 样本 ， 包括 原始 时 间 序列 《顶部 曲线 ) 和 从 最 后 一 个 编码 器 阶段 的 输 
出 得 到 的 它 的 重 构 (底部 曲线 ); 图 9. 13c 的 水 平方 向 的 刻度 是 图 9. 13b 的 一 半 。 最 后 ， 图 
9. 13d 表示 从 一 对 样本 (原始 时 间 序 列 样本 和 它 的 相应 重 构 ) 产生 的 共生 矩阵。 图 9. 13d 中 的 
带宽 指示 由 分 层 向 量 量 化 产生 的 失真 程度 。 

检查 图 9. 13c 的 波形 ， 可 以 看 出 除了 一 些 正 的 和 负 的 峰值 被 剪除 之 外 重 构 是 对 原始 时 间 序 
列 的 好 的 表示 。 根 据 Luttrell(1989a) ， 计 算得 到 的 归 一 化 后 的 均值 平方 失真 同 每 个 样本 用 一 比 
EA BAY Be 4 一 样本 块 编码 器 所 获得 的 几乎 一 样 好 (Jayant and Noll, 1984), 





c) d) 


图 9 13 用 于 相关 高 斯 噪声 输 压缩 的 两 阶段 编码 /解码 结果 。 相 关系 数 0 一 0. 85 
(摘自 S. P. Luttrell(1989a), British Crown 版 权 》 
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Kohonen 的 自 组 织 映 射 算法 对 于 探测 大 量 高 维 数据 是 很 强大 的 工具 ， 这 从 多 个 大 规模 视 筑 
和 数据 控 据 应 用 中 得 到 了 例证 。 然 而 ， 从 理论 的 角度 ， 自 组 织 映 射 存在 着 两 个 基本 的 局 限 : 

L 由 算法 提供 的 输入 空间 概率 密度 函数 的 估计 缺少 精度 。 实 际 上 ， 在 图 9.8 的 实验 结 末 
中 已 经 说 明了 算法 的 这 一 缺点 。 这 一 缺点 也 从 理论 上 是 存在 的 ， 在 式 (9. 28) 或 式 (9. 29) 中 ， 无 
论 哪 一 个 ， 算 法 的 密度 匹配 性 质 都 是 不 完美 的 。 

2. 算法 的 构成 中 不 存在 可 以 用 于 最 优化 的 目标 函数 。 考 虑 算法 的 非 线 性 随机 特征 ， 缺 少 
目标 函数 使 得 对 于 收敛 性 的 证 明 这 一 问题 变 得 更 加 困难 。 

实际 上 ， 很 大 程度 上 是 因为 自 组 织 映射 的 这 两 个 局 限 ， 尤 其 是 后 者 ， 促 使 很 多 研究 者 设计 
不 同 的 途径 来 构成 特征 映射 模型 。 在 本 节 中 我 们 描述 由 Van Hulle(2002b〉 提 出 的 基于 核 的 日 
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组 织 颇 射 形式 ， 其 动机 在 于 改善 拓扑 映射 。 
目标 函数 

在 我 们 前 面 讨论 的 核 方 法 的 应 用 中 ， 以 支持 问 量 机 (SVM) 和 核 主 分 量 分 析 为 例 ， 核 参数 通常 
是 国定 的 。 与 之 相 比 ， 在 核 自 组 织 映 射 中 ， 网 格 结构 的 每 个 神经 元 作为 一 个 核 。 这 样 使 得 核 参 数 根 
据 预 定义 的 目标 函数 各 自 调整 ， 而 目标 消 数 迭代 性 地 最 大 化 以 便 形 成 满意 的 拓扑 映射 。 

在 本 节 中 ， 我 们 集中 注意 力 于 核 〈 即 神经 元 ) 输出 的 联合 精 (joint entropy)， 称 之 为 目标 
He. HHICSES 10 章 中 详细 讨论 。 对 于 目前 而 言 ， 足 够 通过 新 概念 的 定义 而 开始 讨论 。 
考虑 连续 随机 变量 Y,， 其 概率 密度 函数 定义 为 Py, (y:i), 其 中 样本 值 yi 位 于 范围 OR yj, KIO, 
Y; (AIA (differential entropy) MA: 


HO) 一 一 | py, (p logp,, (dy, (9. 34) 


这 里 用 log 来 定义 对 数 以 便 和 第 10 章 的 术语 相 一 致 。 对 于 核 SOM， 随 机 变量 Y; 与 网 格 中 第 i 
个 核 的 输出 相关 联 ，y 是 Y; 的 一 个 样本 值 。 

fe Pi. RITH BRE EAs: 

。 BRABANT R o 

。 然后 ， 当 已 经 达到 最 大 化 时 ， 调 整 核 参数 来 最 大 化 核 输 出 和 输入 之 间 的 交互 信息 。 我 

们 将 在 后 面 对 第 二 个 新 概念 作 进 一 步 说 明 。 

核 的 定义 

JEH k(x, wo a), EP xE m 维 输入 向 量 ,，w; 是 第 i 个 核 的 权 值 (参数 ) HME, o 是 
宽 ; 索引 i 二 1,2,… ,lL, 其 中 1 是 构成 映射 的 网 格 结构 的 神经 元 总 个 数 。 分 配 索 引 i 给 核 宽 以 及 
权 向 量 的 基本 原理 是 这 两 个 参数 将 被 迭代 性 地 调整 。 由 于 核 呈 放射 状 地 围绕 其 中 心 对 称 ， 年 义 
为 Wii» 我 们 有 

k(xywiso) = RC || x—w; |] a), 2 = 1,2,1} (9. 35) 

其 中 || x—w, | 是 输入 向 量 x 和 权 值 向 量 w 之 间 的 欧 几 里 得 距离 ， 这 两 者 具有 相同 的 维 数 。 

现在 ， 正 如 SVM 和 核 PCA 的 例子 中 所 示 ， 我 们 期 望 用 概率 分 布 〈 即 某 种 高 斯 形式 ) 来 
定义 核 。 我 们 也 将 寻找 概率 分 布 但 采用 核 的 不 同 定 义 ， 这 将 在 下 面 解释 。 

设 核 输出 y; 具有 “有 界 ” 支 撑 。 则 由 式 (9. 3 MN HOY: REE Y: 服从 均匀 分 布 
时 达到 最 大 。 (关于 这 一 陈述 的 证 明 在 于 箭 是 随机 性 的 测量 ， 而 均匀 分 布 是 随机 性 的 极端 形 
st.) 刚 提 到 的 最 优 性 的 条 件 在 当 输 出 分 布 和 输入 空间 的 累积 分 布 函 数 相 匹 配 时 发 生 。 对 于 高 
斯 分 布 输入 向 量 x， 我 们 发 现 相应 的 欧 几 里 得 距离 x 一 w; 的 累积 分 布 图 数 是 不 完全 gamma 分 布 
(incomplete gamma distribution)。 将 在 后 面 加 以 定义 的 这 一 分 布 是 所 期 望 的 核 的 定义 。 

仿 输 入 向 量 x 的 mm 个 元 素 是 统计 独立 同 分 布 Gid) 的 ,第 ;个 元素 服从 均值 为 方差 为 
o? 的 高 斯 分 布 。 令 vv 定义 输入 向 量 x PS p= La yp ，… ,pmj 之 间 的 欧 几 里 得 距离 的 平 
F. WFA: 


v= |lx—pll? => yy (9. 36) 


随机 变量 V， 由 样本 值 v Hm. RA FAA Cchi-square distribution), 如 下 所 示 
(Abramowitzand Stegun, 1965); 





= a eee (m/2)—1 5 20 > .37 
pv Cv) eo" Tm 2)” exp( a ， v0 | (9. 37) 

其 中 m 是 分 布 的 自由 度 个 数 (number of degrees of freedom), [(+) 4 gamma BRM, EMA: 
Ia) = 上 z” 'exp(— z)dz (9. 38) 
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令 r 记 到 核 中 心 的 半径 距离 ， 定义 为 : 

r= v” = |lx—-pl (9, 39) 
这 表示 了 新 的 随机 变量 R 的 样本 值 。 然 后 ， 利 用 将 随机 变量 Y 变换 为 随机 变量 民 的 规则 ， 我 
们 写成 : 





《9. 40) 


利用 这 一 变换 ， 我们 发 现 经 过 一 些 合适 的 代数 操作 之 后 ， 由 样本 值 + 表示 的 随机 变量 RR 的 概率 
密度 函数 由 下 式 给 出 〈 参 看 习题 9. 8): 


1 r m—| r? 
prí) = | (=) ii 2a) e (9. 41) 
0, r< 0 
图 9. 14 中 的 连续 曲线 是 pr (7) 对 于 距离 r+ 的 单位 方差 及 m 二 1 ,2,3… 的 概率 密度 函数 图 。 从 这 
些 图 中 我 们 看 出 随 着 输入 空间 维 数 m A, OR ORB RR. PAA, BR 
斯 函数 的 二 阶 统计 参数 定义 为 (Van Hulle, 2002b) 
ECR) œ~ ymo 


Var[ R] = z 


随机 变量 R 的 累积 分 布 函 数 将 在 习题 9.9 的 (a) 中 提 及 ， 其 解 由 不 完全 gamma 分 布 定 义 
(Abramowitz and Stegun, 1965): 


Jean (9. 42) 


Pr(r|m) -| (9. 43) 


因子 (全 ,站 )/T (2)ER 22 
gamma 分 布 的 补 (complement of the 
incomplete gamma distribution) ， 其 对 单 
位 方差 和 增长 的 m 关于 距离 7 的 图 也 包 
STE 9. 14 的 短 划 线 中 。 这 些 曲 线 也 提 
供 了 期 望 核 的 图 形 。 具 体 来 说 ， 将 一 看 
成 是 输入 向 量 x 和 第 i 个 神经 元 的 权 值 
向 量 w 之 间 欧 几 里 得 距离 的 平方 ， 最 后 
相应 的 核 (x,wi,6) 定义 如 下 《Van 
Hulle, 2002b): 








o 1l m ||x—wll’) . 

BCX, W; 10; ) = : m r( 9 + OG )， 
(7) 

| 9.14 显示 了 对 距离 + 的 两 个 不 同 图 集 的 图 ， 对 于 单位 
注意 以 7 = 二 x 一 wi 为 中 心 的 核对 于 所 方差 和 增长 的 维 数 mw 二 1]，2，3，…; 
有 的 i 是 放射 状 对 称 的 。 更 重要 的 是 ， 不 。 连续 曲线 是 式 (9. 41) 的 概率 密度 函数 
pes a : : 。 短 划 线 是 不 完全 gamma 分 布 的 补 图 ， 或 者 等 
完全 gamma 分 布 的 采用 保证 了 当 输 入 分 nE a Dor aw R ON 
布 是 高 斯 时 核 的 微分 是 最 大 的 。 (这 个 图 的 复制 得 到 了 Dr Marc Van Hulle 的 许可 ) 
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映射 构造 的 学 习 算 法 


有 了 式 (9. 44) 的 核 晴 数 ， 我 们 现在 为 构成 自 组 织 拓 扑 公 式 的 算法 做 好 了 准备 ， 在 上 映 射 中 利 
用 核 范 数 来 描述 每 个 神经 元 


我 们 通过 推导 由 (9. 34) 式 定义 的 目标 函数 对 于 核 参 数 GA w MARGE o ,i = 1,2,1) 
的 梯度 公式 来 开始 。 然 而 ， 如 目前 的 状况 ， 上 有 目 标 函 数 瓦 (Y;) 是 定义 在 第 i 个 神经 元 输出 之 上 : 
y: = ROW ds 1 = 1,2,.,1 (9. 45) 
另 一 方面 ， 式 (9. 41) 的 分 布 是 定义 在 到 核 的 中 心 的 半径 距离 7 之 上 的 。 因 而 我 们 需要 将 随机 变 
量 尺 变换 到 YY ， 且 相应 地 得 到 : 
pr (y) = PERE (9. 46) 
dy, 
dr 
这 里 右 端 的 分 母 部 分 说 明 y; 对 于 r 的 依赖 性 。 因 此 ， 将 式 (9.46) 代 人 式 (9.34)， 可 以 重新 定 
义 目 标 函 数 HYD: 


H(CY;) =— | pe(rloe pa(rddr + |” pr (r) log 


为 了 进一步 做 下 去 ， 首 先 考 虑 五 (Y;) 关 于 权 值 向 量 w: 的 梯度 。 re ne 
w 。 第 二 项 是 偏 导数 log|(ayw(r))/dr | 的 期 望 。 因 此 可 以 将 昌 (Y;) 对 于 wi 的 导数 表达 为 : 
Ow; Sy, EL | or | all 
现在 假设 对 于 每 个 核 我 们 从 r 的 一 个 训练 样本 开始 来 通 近 概率 密度 函数 bg(r) 以 最 大 化 核 箱 出 
yi (r) 的 微分 箭 。 然 后 将 式 (9. 48) 的 右 端 项 的 期 望 用 确定 量 来 代替 ， 如 下 所 示 : 





er ir) (9. 47) 























Oy: Cr) 
E| log | 2 |= log | 一 一 一 一 (9. 49) 
EH yE w%(r) 在 > 的 训练 样本 之 上 的 平均 值 。 相 应 地 ， 重 写 式 (9. 48) 为 简单 形式 : 
OH) 9 ai 256 
Ow; Swi 
_ ra oO yi(7) sr 
Ow, al (1og| 2%: C9890 





EHHE y (DAA MAO. 44) 定 义 的 不 完全 gamma pe N 它 的 使 用 产生 了 参看 习 
题 9.9 的 人 b)): 





Əy; Cr) ES ssm rm} ex — 六 
SS eo P are (9.51) 
or Tm/2) W26,)"" | z7) 
回忆 核 是 以 下 面 的 点 为 中 心 而 对 称 的 : 
Ca | xX —_ W; | 


因而 ， 实 现 式 (9. 51) 中 的 3 去 (7)/3r 对 wi 的 偏 微分 且 将 其 结果 代 人 式 (9.50)， 得 到 《经 过 简 
化 ) 








oH) LXE m- D(A) (9. 52) 
| | x 


OW; o? W | : 
下 面 关 于 式 (9. 52) 的 两 个 备注 是 值得 注意 的 : 
CO 等 式 的 右 端 两 项 对 于 大 的 迭代 次 数 收敛 到 输入 向 量 x 的 中 心 。 
(ii) 对 于 维 数 m 的 高 斯 分 布 输入 向 量 x*， 从 前 面 的 讨论 中 我 们 知道 期 望 为 : 
EL || x— w: ll? ] = mo; (9. 53) 
因此 ， 对 于 所 有 m， 等 式 的 右 端 第 二 项 希望 比 第 一 项 更 小 。 
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从 计算 的 观点 看 ， 高 度 期 望 简化 式 (9. 52) 使 得 我 们 可 以 对 关于 权 值 向 量 w; 的 更 新 规则 利 
用 单一 的 学 习 率 参数 来 完成 。 对 此 我 们 选择 一 个 启发 式 建议 : 将 平方 欧 几 里 得 项 | x—w, ||” 
用 式 (9. 53) 的 期 望 值 来 代替 ， 因 而 可 通过 如 下 方式 来 通 近 式 (9. 52): 


Hw. 一 w. 
OH) XZ; 对 于 所 有 :1 《9. 54) 


Ow; G mg; i 
最 大 化 目标 函数 ， 权 值 更 新 很 自然 地 作用 在 式 (9. 54) KT E RRR. 5 HA 
(gradient ascent) 相 一 致 。 我 们 可 以 写 : 
i = y| Ow; 
其 中 p 是 小 的 学 习 率 参数 。 将 输入 向 量 x 的 固定 维 数 闷 吸收 到 7v， 我 们 最 后 可 以 表示 权 值 更 
新 为 : 











Aw = a (r) (9. 55) 
因此 关于 核 SOM 算法 的 第 一 个 更 新 公式 为 : 
Wi 一 W; 十 Aw; = w; + ha) (9. 56) 


其 中 w 和 wz 分 别 表示 老 的 和 更 新 后 的 神经 元 i 的 权 值 向 量 的 值 。 
下 面 考虑 目标 函数 HGOM PRR o 的 梯度 向 量 。 同 以 前 所 讲述 的 梯度 向 量 OH Cy; )/ Cow, ? 
相似 的 方式 进行 ， 得 到 : | 





ƏH) _ 1¢ix-wll? _ 
ae | = 1) (9.57) 
然后 定义 核 宽 的 调整 为 : 
= dh) 站 x 一 ww 
A | 1 | (9. 58) 
其 中 n 为 第 二 个 学 习 率 参数 。 对 于 核 SOM 算法 的 第 二 个 更 新 公式 ， 我 们 有 
oto + doo, +e (1k 4) | (9. 99) 
Gi mo: 


由 式 (9. 56) 和 式 (9. 59) 给 出 的 两 个 更 新 规则 对 于 单一 神经 元 工作 良好 。 下 面 我 们 考虑 对 于 多 个 
神经 元 的 网 络 的 扩展 。 
目标 栈 数 的 联合 最 大 化 

在 一 个 神经 元 接着 一 个 神经 元 的 基础 上 最 大 化 目标 函数 吾 (y) 对 于 可 使 用 的 算法 而 育 是 不 
充分 的 。 为 了 了 解 为 什么 这 是 真 的 ， 考 虑 由 两 个 神经 元 组 成 的 网 格 ， 其 相应 的 核 输 出 记 为 y 
和 y;。 当 使 用 式 (9. 56) 和 式 (9.59) 的 更 新 公式 时 ， 例 如 假设 高 斯 输入 分 布 ， 这 两 个 神经 元 核 
最 终 将 相互 一 致 ， 换 句 话 说 ， 两 个 核 输 出 六 和 ys 成 为 统计 相关 。 为 了 预防 这 一 不 满意 的 可 能 
性 (为 了 尽 可 能 保持 y Ay 之 间 的 统计 独立 性 )， 我 们 需要 通过 将 核 自 适应 放 人 入 竞争 学 习 框 
架 来 最 大 化 目标 函数 HO). KARTES Kohonen 的 SOM 算法 时 是 一 样 的 。 则 在 竞争 中 获 
胜 的 神经 元 的 核 将 要 降低 其 和 邻 域 神 经 元 交互 作用 的 范围 ， 尤 其 当 获 胜 神 经 元 是 强烈 活跃 时 
因此 ， 邻 域 神经 元 之 间 的 覆盖 减少 了 。 而 且 ， 正 如 在 Kohonen 的 SOM 算法 中 那样 ， 为 了 对 输 
入 空间 的 数据 分 布 拓 扑 保 持 其 神经 元 网 格 ， 我 们 对 学习 过 程 强加 一 个 邻 域 函数 。 相 应 地 ， 苋 争 
学 习 和 邻 域 函数 的 组 合 使 用 使 得 我 们 能 够 对 多 个 神经 元 运用 两 个 更 新 规则 ， 这 将 在 下 面 讨论 。 
拓扑 映射 构造 

考虑 由 ! 个 神经 元 组 成 的 网 格 &， 这 些 神经 元 是 由 相应 的 核 集 (不 完全 gamma 分 布 的 种) 
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刻画 的 : 
R(X wa); i= 1,2,°,/ (9. 60) 
SET RAMEE AM. RISATE KERNA 1 个 神经 元 之 间 的 竞争 ， 获 胜 
神经 元 被 定义 为 ; 
i(X) = arg max y; (x), jE (9. 61) 
注意 这 里 的 相似 性 匹配 准则 和 式 (9. 3) 的 形式 不 同 ， 式 (9. 3) 是 基于 最 短 距 离 神经 元 竞争 的 。 式 
(9. 3) 和 式 (9. 61) 这 两 个 准则 仅仅 在 当 所 有 的 神经 元 核 都 具有 相同 的 宽 〈 半 径 ) 时 才 等 价 。 
为 了 提供 拓扑 映射 构造 所 需要 的 信息 ， 正 如 Kohonen 的 SOM 那样 ， REPT A SRR HK 
hio ， 以 获胜 神经 元 iC(xX) 为 中 心 。 而 且 ， 根 据 9. 3 节 的 讨论 ， 我 们 采用 距 获 胜 神经 元 i(x) 的 
网 格 距 离 的 单调 减 函 数 。 特 别 地 ， 选 择 式 (9.4) 的 高 斯 隐 数 ， 这 里 复制 如 下 : 


cn MER 
hj,ix = exp(— duet) 9 ESA (9. 62) 


这 里 o (SRR 的 范围 ;不 要 将 邻 域 范围 o 和 核 宽 ci; 相 混 消 。 
核 SOM 算法 小 结 | 

现在 我 们 为 描述 核 自 组 织 映 射 的 步骤 做 好 了 准备 : 

1. 初始 化 。 对 初始 权 值 向 量 w ORRA o;(0) (i 一 1,2,… D 选择 随机 值 ， 这 里 :是 网 格 
结构 中 神经 元 的 总 个 数 。 这 里 仅 有 的 限制 是 对 不 同 的 神经 元 w(0) 和 (0) 也 不 同 。 

2. 取样 。 从 输入 分 布 中 按 一 定 的 概率 取出 一 个 样本 x。 

3. 相似 性 匹配 。 在 算法 的 时 间 步 ， 用 下 面 的 准则 来 确定 获胜 神经 元 i(X): 

i(x) = arg maxy; (x), 7 一 1 2 
4. 自 适应 。 调 整 权 值 向 量 和 每 个 核 的 宽 ， 使 用 相应 的 更 新 公式 : 


Wj n) + BL (x(n) — w,(n)), jE 
w,(n+ 1) = Oj (9. 63) 
w; (n), 否则 
| ge jin hx) wn) i]; 
ast) T Oj (n) | mo; (n) | Tos (9, 64) 


a;(n+ 1) -1 
on), 否则 


这 里 pe Hy, 为 学 习 算法 的 两 个 学 习 率 参数 ,hj,iw 是 以 获胜 神经 元 iC APD AY BB ea, TR 
据 式 (9. 61) 定 义 。 如 Kohonen 的 SOM， 邻 域 范围 允许 随时 间 指 数 衰减 。 


9.9 WANKA: 利用 核 SOM 解 点 阵 动 力学 问题 


在 这 一 试验 中 ， 我 们 回顾 二 维 网 格 ， 这 已 经 在 9. 5 节 的 计算 机 实验 工 中 进行 了 研究 。 这 一 

次 实验 中 我 们 采用 核 SOM。 选 择 算 法 中 的 两 个 学 习 率 参数 为 ， 

qw = 0. 01 
和 

he = 10" gw 
一 维 网 格 是 由 24X24 神经 元 组 成 的 方 格 ， 输 入 数据 是 均匀 分 布 的 。 权 值 的 初始 化 是 从 同样 的 
输入 分 布 中 取样 的 ， 半 径 的 初始 化 是 从 均匀 分 布 [0,0. 1] PRES. Fer aE A SB at E 
数 ， 其 宽 为 


a(n) = ooexp (= 200 Cay 
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这 里 ns* 记 为 最 大 时 间 步 次 数 ，o 记 时 间 n= 0 时 邻 域 函数 张 开 的 范围 。 实 验 中 使 用 的 值 为 
AS 2 CIO 
和 
do = 12 

做 这 样 的 选择 是 为 了 确保 在 学 习 过 程 结 束 时 邻 域 函数 将 消失 ， 在 那 一 点 上 近似 值 为 4.5 x 
10 “， 这 实际 上 是 0。 当 最 终 达到 这 一 条 件 时 ， 邻 域 函 数 仅仅 围绕 获胜 神经 元 。 

图 9. 15 表示 的 两 个 序列 图 示 了 核 SOM 算法 产生 的 拓扑 映射 。 注 意 到 : 

。 图 左边 列 显 示 的 图 片 说 明了 核 权 值 随时 间 n 演化 的 过 程 。 
。 图 右 半 列 显示 的 图 


N zm Vr 

Ps biS ~ va S m 4 

Nae y Ea Bea 17 
Ae 大 仙人 Loy? 





D 


时 间 =1k 





时 上 间 =0 








SERCO EHH 
E 
i 2 OY Bip SG ay oa 
ozastecstentrscezsct 
APE raose taastati 
时 间 =10k 时 间 =10k 时 间 =2M 


图 9.15 随时 间 而 演化 的 24X24 网 格 ， 时 间 值 〈 和 迭代 次 数 ) 在 每 个 图 片 的 下 方 给 出 。 左 列 : 核 权 值 的 演 
化 。 右 列 : 核 宽 的 演化 。 图 中 每 一 个 方块 描画 了 均匀 输入 分 布 的 结果 。 在 每 一 个 映射 下 给 出 的 
时 和 间 表 示 和 迭代 次 数 《〈 这 个 图 的 复制 得 到 了 Dr. Marc Van Hulle 的 许可 ) 


对 于 大 致 相同 的 迭代 次 数 在 24 X24 网 格 上 分 别 通过 核 SOM 和 传统 SOM 计算 的 结果 ， 比 
较 图 9. 15 左边 列 的 拓扑 映射 的 最 终 形式 以 及 图 9.8 的 映射 结果 ,我 们 可 以 作出 如 下 重要 的 

由 核 SOM 计算 得 到 的 拓扑 映射 分 布 比 传统 SOM 计算 得 到 的 拓扑 映射 更 加 接近 于 分 配给 
输入 数据 空间 的 均匀 分 布 。 

相应 地 ， 我 们 可 以 继续 说 由 核 SOM 计算 的 放大 因子 ma) BE SOM 的 能 更 好 地 匹配 输 
人 密度 pa); 即 核 SOM 可 以 更 接近 于 式 (9. 27) 的 理想 条 件 。 


9.10 SOM AMMAN AR 


我 们 发 现 讨 论 核 SOM (采用 不 完全 gamma 分 布 核 ) 和 相对 和 炉 (Kullback-Leibler diver- 
gence, KLD) 之 间 的 关系 可 以 提供 很 多 信息 。 将 在 下 一 章 讨论 细 广 的 KLD 为 评估 对 真实 概率 
的 概率 估计 质量 提供 了 共识 。 记 真实 概率 为 px (x)， 其 估计 记 为 Bx (x)。 则 我 们 定义 这 两 个 密 
度 之 间 的 KLD 为 : 





a (x) 
D,, 18 一 | px log (BAS 


这 里 我 们 采用 了 信息 论 中 常用 的 术语 。 如 此 定义 的 KLD 总 是 非 负 的 ， 当 且 仅 当 px C(x) 和 px (Xx) 
完全 匹配 时 其 值 为 0。 


)dx (9. 65) 
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对 于 当前 的 讨论 ， 假 设 密度 估计 被 表达 为 具有 相等 混 频 的 高 斯 密度 函数 的 混合 ， 如 下 
FER: 


Px (x| Ww; 50;) = > gora Qe. 5,2 | KX W; 中 ) (9.66) 
=! f 


这 是 以 权 值 向 量 w, A Fi o; 2 tle 2, tes L 为 条 件 的 。 最 优 密 度 估 计 bx(x) 是 通过 最 小 化 它 和 
密度 估计 Px (x|wi,o;) 之 间 的 KLD 来 获得 的 。 实 际 上 ， 最 优 密 度 函 数 px (x) 被 看 成 是 真实 密 
度 。 作 为 感 兴趣 问题 的 最 优化 ， 我 们 需要 对 式 (9. 66) 的 KLD 关于 可 调整 参数 w 和 o; 微分 。 最 
Ja» P w: BI ii SF RY : 


-Drin S) px (x)log (zs )dx 


Ow; bx (x |W, 90; 


= | -px (x) log px(%) — px Olog Bx (x| wis0:)) dx 


=- 一 | Px (Xx) Æ dog Px (x |w; 50;) dx 


=- | px (Friw a a a Woo ) ) dx ela 
相似 地 ， 我 们 可 将 对 e FY Ot BBE OK A : 
O E he E E 
2(D,,14) = | px00 (ST = 2 8. (x | w; 10) ) dx (9. 68) 


A KLD HX ia SA OO, RIG LEBGPLIB We (Robbins and Monro, 1951), ATK 
得 学 习 规 则 对 (Van Hulle, 2002b) 





= pw Pral wire) (FF) (9. 69) 
和 | 
[x—wl” 
Ao; =R >= Tw dx (x | w; 90;) 。 s m mo? 1) (9. 70) 
对 ;1，2，…，/; Px (X | wi， 0;) 为 由 权 值 向 量 w, 和 宽 o; 表示 的 第 i A~ pH Z ATLA 4 14 Ja 
假设 我 们 令 条 件 后 验 密度 为 : 
Dx (x; | Wi so; ) = Oy» 当 = Lo ots ok (9.71) 
其 中 
0 = oe J F 
0, 当 7 关 1 


当 这 一 理想 条 件 得 到 满足 时 ， 神 经 元 i 是 在 神经 元 ;二 1，2，…， 中 竞争 的 获胜 神经 元 。 因 此 
a ee $x Cx|wiso;) 看 成 是 扮演 着 核 SOM 构成 中 引入 的 拓扑 邻 域 函数 
hji o 事实 上 ， 令 
bx (x | W; ;0;) = hyn (9. 72) 
RIIHI T A TE E L, BICO. 69) 和 式 (9.70)， 它 们 和 9.9 ee 
SOM 的 更 新 规则 对 式 (9. 63) 和 式 (9. 64) 具 有 相似 的 数学 形式 。 
因而 我 们 可 以 给 出 如 下 结论 (Van Hulle，2002b): 
AGMRARRM RET, Reet Be RALELAALAS gamma 分 布 核 及 基于 活 
跃 度 的 邻 域 函 数 上 的 联合 业 等 价 ， 后 者 是 核 SOM 的 核心 。 
一 结论 在 密度 估计 的 背景 中 尤其 重要 ， 此 时 给 定 一 个 数据 集 {x;} 人 六 ， 要 求 对 于 产生 这 个 


ww ai bbt.com A000000 





第 9 章 自 组 织 映 射 "293 


数据 的 内 在 固有 分 布 计 算 一 个 估计 。 
9. 11 小 结 和 讨论 


自 组 织 映 射 

由 Kohonen(1982) 提出 的 自 组 织 映射 是 一 个 简单 但 强大 的 算法 ， 它 建立 在 一 维 或 二 维 的 
神经 元 网 格 上 ， 用 于 捕获 包含 在 输入 “〈 数 据 ) 空间 中 感 兴趣 的 重要 特征 。 为 此 ， 它 利用 神经 元 
权 值 向 量 作为 原型 提供 一 个 输入 数据 的 结构 表示 。SOM 算法 受到 神经 生物 学 的 激发 ,综合 第 
8 章 中 讨论 的 所 有 自 组 织 的 基本 机 制 : 竞争 、 合 作 、 自 增强 以 及 结构 化 信息 。 因 此 它 可 以 作为 
退化 但 一 般 的 模型 ， 描 述 在 复杂 系统 中 从 完全 混乱 开始 最 终 出 现 整体 有 序 的 现象 。 换 名 话说 ， 
SOM 具有 通过 时 间 进 程 的 演化 过 程 从 无 序 中 产生 有 序 的 内 在 能 力 。 

自 组 织 上 映射 也 可 以 被 看 作 向 量 量 化 器 ， 从 而 提供 一 个 导出 调整 权 值 向 量 的 更 新 规则 的 原理 
性 方法 (Luttrell，1989b) 。 后 一 种 方法 明确 地 强调 邻 域 函数 作为 概率 密度 浮 数 的 作用 。 

然而 应 该 强调 的 是 ， 基 于 使 用 在 式 (9. 19) 中 的 平均 分 布 D; 作为 极 小 化 代价 疯 数 的 后 一 
种 方法 中 ， 仅 当 特 征 映射 被 很 好 她 排序 后 才 是 合理 的 。 在 Erwin 等 (1992b) 中 ， 证 明 在 中 
适应 过 程 的 排序 阶段 ( 即 在 初始 是 高 度 混 乱 的 特征 映射 的 拓扑 排序 期 间 〉 自 组 织 映 映 的 学 习 
动态 系统 不 能 用 一 个 代价 函数 的 随机 梯度 下 降 描 述 。 但 就 一 维 网 格 的 情况 来 说 ， 它 可 以 用 一 
组 代价 函数 描述 ， 对 于 网 络 中 每 个 神经 元 ， 一 个 对 应 的 代价 函数 随 随 机 梯度 下 降 独 立地 被 最 
小 化 。 
A 28 oR BRAT ok ok HB 

关于 Kohonen 的 SOM 算法 , 令 人 惊奇 的 是 它 的 实现 如 此 简单 ， 但 在 一 般 设置 下 分 析 它 的 
性 质数 学 上 却 如 此 困难 。 虽 然 几 个 研究 者 使 用 相当 有 力 的 方法 来 分 析 它 ， 但 是 ， 他 们 仅 获 得 有 
限 的 应 用 性 结果 。 在 Cottrell (1997) 中 给 出 关于 SOM 算法 理论 方面 的 结果 的 综述 。 尤 其 
由 Forte and Pages(1995，1996) 得 出 的 结果 引 人 注 目 ， 结果 表明 就 一 维 网 格 情况 而 言 ， 可 严格 
证 明 ; 在 自 组 织 阶段 结束 后 ，SOM 算法 “几乎 确定 ”收敛 到 一 个 唯一 状态 。 这 个 重要 的 结 采 
已 被 证 明 对 一 大 类 邻 域 函数 成 立 。 然 而 ， 在 多 维 情况 下 尚未 得 到 同样 的 结论 。 
神经 生物 学 考虑 | 

既然 自 组 织 映 射 是 由 大 脑 皮 质 映射 的 思想 所 激发 的 ， 很 自然 会 问 是 否 这 种 模型 可 以 实际 解 
释 皮质 映射 的 形成 。Erwin 等 (1995) 进行 了 这 项 研究 。 他 们 发 现 自 组 织 映 射 可 以 解释 猕猴 多 
-级 视觉 皮质 中 计算 映射 的 形成 。 这 项 研究 的 输入 空间 的 维 数 是 5 维 : 二 维 为 视觉 空间 接收 域 的 
位 置 ， 剩 下 的 三 维 代 表 方 向 优先 、 方 位 选择 和 视觉 优势 。 皮 质 表 面 被 分 成 小 块 ， 每 块 被 视 为 二 
维 网 格 的 计算 单元 〈 即 人 工 神 经 元 ) 。 在 一 定 假 设 下 ， 表 明 Hebb 学 习 导 致 空间 模式 的 定位 和 
视觉 优势 与 在 猕猴 中 发 现 的 非常 相似 。 
自 组 织 映射 的 应 用 

SOM 算法 的 简单 性 和 强大 的 可 视 能 力 的 组 合 促 使 该 算法 在 多 个 大 规模 应 用 中 得 到 使 用 。 
典型 地 ， 算 法 在 非 监督 模式 下 训练 ， 使 用 大 量 的 训练 数据 样本 。 特 别 地 ， 如 果 数 据 包含 语义 相 
关 目 标 群 (#) (semantically related object groupings), 属于 用 户 定 义 的 类 的 向 量子 集 被 SOM 
通过 如 下 方式 映射 :算法 计算 的 映射 上 数据 向 量 的 分 布 提供 了 原始 数据 空间 固有 分 布 的 二 维 离 
敬 交 近 。 基 于 这 一 思想 ， 在 Laaksonen 等 〈2004) 和 Laaksonen and Viitaniemi(2007) 中 ， 
SOM 被 成 功用 于 检测 和 描述 语义 目标 和 目标 类 之 间 的 存在 关系 (ontological relations), 语义 
日 标 在 一 个 包含 2618 个 图 像 的 视觉 数据 库 中 ， 每 个 图 像 属 于 一 个 或 多 个 预定 义 的 语义 类 。 在 
这 个 研究 中 使 用 的 存在 关系 包括 如 下 几 氮 : 

。 在 一 个 图 像 中 同时 存在 从 两 个 或 更 多 目标 类 而 来 的 目标 。 
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。 视觉 相似 性 的 分 类 。 

。 在 一 个 图 像 中 不 同 目 标 类 型 的 空间 关系 。 

在 另 一 个 不 同 的 应 用 中 ，Honkela 等 (1995) 利用 SOM 算法 来 研究 自然 语言 单词 的 语义 
规则 ， 这 里 规则 是 在 它们 发 生 的 上 下 文 关系 中 反映 的 。 这 一 研究 的 目的 是 对 这 些 规则 的 确切 形 
象 计算 上 下 文 映 射 。 在 这 一 研究 完成 的 实验 中 ， 源 数据 库 由 Brothers Grimm 的 童话 故事 的 英 
语 翻 译 组 成 ， 对 于 单词 没有 任何 先 验 句法 或 语义 分 类 ; 单词 数 总 共 大 约 250 000， 词 汇 的 大 小 
超过 7 000 个 单词 。SOM 算法 能 够 建立 上 下 文 映射 并 且 看 起 来 很 好 地 亲 守 传统 的 语义 分 类 以 及 
关于 单词 语义 的 人 类 直觉 。 关 于 文本 内 容 的 分 析 被 扩展 到 收集 上 百 万 的 文档 ; 在 这 一 类 应 用 
中 ， 网 格 的 神经 元 个 数 可 以 达到 上 百 万 ， 输入 数据 空间 的 维 数 也 可 能 达到 上 千 维 (Honkela, 
2007)。 这 一 类 大 规模 的 应 用 使 得 自 组 织 映 射 成 为 强 有 力 的 工具 。 

核 SOM 

在 本 章 的 后 面部 分 ， 我们 描述 了 Van Hulle(2002b) 的 核 SOM 算法 ， 这 一 算法 的 主要 目的 
是 提供 改进 的 拓扑 映射 和 逼近 分 布 能 力 。 核 SOM 的 一 个 出 众 的 特征 是 其 推导 是 从 构造 一 个 炉 
目标 函数 开始 的 。 更 重要 的 是 ， 核 SOM 是 在 线 的 基于 随机 梯度 的 算法 。 

比较 本 章 中 学 习 的 两 个 自 组 织 映 射 ， 我 们 可 以 说 对 于 神经 元 网 格 中 的 权 值 向 量 标准 SOM 
和 核 SOM 具有 相似 的 更 新 规则 。 而 且 ， 他们 在 同一 方向 上 对 权 值 更 新 ,但 采用 不 同 的 学 习 率 
参数 。 和 标准 SOM 不 同 ， 核 SOM 具有 对 网 格 中 每 个 神经 元 i 自动 调整 核 宽 so 的 内 在 能 力 ， 
从 而 最 大 化 核 〈 神 经 元 ) 输出 的 联合 炳 。 

然而 ， 核 SOM 需要 对 两 个 学 习 率 参数 qe A oy, 进行 仔细 的 调整 以 保证 权 值 和 宽 的 更 新 不 
发 生 爆 炸 性 的 增长 。 如 果 当 核 宽 的 方差 of 的 道 比 学 习 率 参数 mn。 和 yp 大 时 就 会 发 生 爆 炸 性 增 
长 。 这 一 不 希望 的 行为 是 由 于 这 样 的 事实 : 在 式 (9.56) 和 式 (9.59) 的 更 新 式 中 ， 学 习 率 参数 
nw 和 n, 分 别 被 o? Flo: 除 。 为 了 避免 w Filo, 的 爆炸 性 增长 的 可 能 性 ， 我 们 可 以 将 of 用 和 oi 十 a 
来 代替 ， 这 里 o 是 预先 给 定 的 小 常数 。 


注释 和 参考 文献 


. 存在 其 他 类 型 的 没有 胜利 者 的 旁 争 学 习 ， 如 在 Heskes(2001) 和 Van Hulle(2005) 中 讨论 的 那样 。 

2. 图 9. 1 的 两 个 特征 映射 模型 是 由 von der Malsburg(1973) 的 自 组 织 的 先驱 性 研究 所 激发 ，Malsburg 注意 到 
视觉 皮质 的 模型 不 能 整体 地 被 基因 预先 确定 ; 相反 涉及 突 触 学 习 的 自 组 织 过 程 可 能 导致 特征 敏感 的 皮质 细 
胞 的 局 部 排序 ， 但 是 在 von der Malsburg 的 模型 中 不 能 取得 全 局 拓扑 序 ， 因 为 模型 使 用 固定 的 (很 小 的 ) 
邻 域 ，von der Malsburg 的 计算 机 人 入 真 也 许 是 第 一 次 展示 目 组 织 。 

3. Amari(1980) 在 某 种 程度 上 放松 对 后 突 触 神经 元 的 突 触 权 值 的 限制 。 Amari 给 出 的 数学 分 析 曾 明了 由 自 组 
织 形成 的 皮质 映射 的 动态 稳定 性 。 

4. Grossberg(1969) 在 神经 网 络 文献 中 第 一 次 引入 式 (9. 3) 描 述 的 竞争 学 习 规 则 。 

5. 在 Kohonen(1982) 导出 的 SOM 算法 的 原始 形式 中 ， 拓 扑 邻 域 假定 为 有 固定 的 范围 。 令 也 :表示 在 邻 域 函 
数 内 获胜 神经 元 i 和 兴奋 神经 元 7 的 侧 向 距离 。 一 维 网 格 情形 的 拓扑 邻 域 定义 为 : 

1, —K<d,;<K 
h;i = (A) 
0, 否则 
其 中 2K 为 兴奋 神经 元 一 维 邻 域 的 总 长 度 。 与 神经 生物 学 考虑 相反 ， 式 (A) 描述 的 模型 意味 着 在 拓扑 邻 域 
内 所 有 神经 元 以 相同 的 速度 点 火 ， 且 这 些 神经 元 内 部 的 相互 作用 与 它们 到 获胜 神经 元 i 的 侧 向 距离 无 关 。 

6. Erwin 等 (1992b) 表明 当 SOM 算法 利用 非 凸 的 邻 域 函 数 时 会 出 现 亚 稳 定 状 态 ， 它 表示 在 特征 映射 设置 中 的 
拓扑 缺陷 。 一 个 宽 的 凸 邻 域 函数 ， 如 宽 高 斯 函数 ， 形 成 拓扑 排序 的 时 间 比 非 凸 邻 域 函 数 所 花 的 时 间 短 ， 这 

7. 在 第 5 章 的 注释 中 指出 在 通信 和 信息 论 的 文献 中 ， 提 出 了 著名 的 标量 量化 的 早期 方法 ， 即 Lloyd 算法 。 这 

个 算法 首先 由 Lloyd 在 Bell 实验 室 1957 年 未 发 表 的 报告 中 描述 (Lloyd，1957)， 很 久 以 后 才 发 表 (Lloyd， 
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1982), Lloyd REA HRA “RRR”. PMR RB XM Lloyd 算法 (generalized Lloyd algo 
rithm, GLA) 是 Lloyd 算法 的 直接 推广 。 广义 Lloyd 算法 在 McQueen(1967) 将 其 作为 如 第 5 章 讨论 的 统 
计 聚 类 的 工具 之 后 有 时 称 为 久 均 值 算法 。 在 前 面 的 这 一 章 中 我 们 确实 辑 山 久 鸠 值 算 法 以 和 期 望 最 大 《EM) 
算法 相似 的 方式 进行 ， 这 两 者 之 间 基 本 的 区 别 是 二 均值 算法 的 目标 函数 (和 GLA 相似 ) 被 最 小 化 ， 而 EM 
算法 的 目标 函数 被 最 大 化 。EM 算法 在 第 11 章 中 讨论 。Lloyd 算法 及 广义 Lloyd 算法 的 历史 评述 可 参看 
Gersho and Gray(1992) 。 

8. Kohonen(1993) 给 出 的 实验 结果 表明 ，SOM 算法 的 批量 方式 比 它 的 在 线 方式 快 。 但 是 使 用 批量 方式 时 
SOM 算法 失去 目 适 应 能 力 。 

9. 自 组 织 映 射 的 拓扑 性 质 可 由 不 同方 法 定量 评价 。 一 种 这 样 的 定量 度量 称 为 地 形 图 产品 (topographic prod- 
uct)， 它 在 Bauer and Pawelzik(1992) PSR, 它 可 用 于 比较 属于 不 同 维 数 的 不 同 特征 映射 的 真实 行为 。 但 
是 只 有 当 网 格 维 数 和 输入 空间 维 数 匹配 时 这 种 度量 才 是 可 量化 的 。 

10. SOM 算法 无 能 力 提 供 输入 数据 的 固有 分 布 的 可 信和 表示 ， 这 一 点 促使 对 算法 的 修正 和 能 真实 表示 输入 的 新 

自 组 织 算法 的 发 展 。 

在 文献 中 有 两 类 SOM 算法 修正 的 报道 。 

Ci) 修改 竟 争 过 程 。DeSieno(1988) 在 网 格 中 用 记忆 形式 跟踪 单个 神经 元 的 累计 激活 量 。 上 具体 地 ， 添 
加 “良心 ”机 制 影响 SOM 算法 的 竞争 过 程 。 这 样 做 使 得 每 个 神经 元 不 管 它 在 网 格 中 的 位 置 如 何者 
有 机 会 以 接近 于 理想 值 1/ 的 概率 获胜 ， 其 中 /为 总 的 神经 元 数 。 习 题 9.7 给 出 具有 良心 机 制 的 
SOM 算法 的 描述 。 

(i) 修改 自 适 应 过 程 。 在 这 第 二 种 方法 中 ， 对 用 于 调整 邻 域 函数 内 每 个 神经 元 权 值 向 量 的 更 新 规则 进行 
修改 ,以 控制 特征 映射 的 放大 性 质 。 在 Bauer (1996) 中 ， 表 明 通 过 对 更 新 规则 添加 可 调 步 长 参 
数 ， 可 以 为 特征 映射 提供 输入 数据 的 可 信和 表示 。Lin (1997) 遵循 相似 的 途径 引入 SOM 算法 的 两 
种 修改 : 
。 修改 更 新 规则 ， 抽 取 输 入 向 量 x 和 问题 中 神经 元 7 的 权 值 向 量 w 的 直接 依赖 性 。 
。 利用 为 可 分 输入 分 布 特别 设计 的 等 变化 〈equivariant) 前 分 替代 Voronoi fat. 
这 第 二 种 修改 使 得 SOM 算法 能 进行 盲 源 分 离 。( 盲 源 分 离 在 第 10 章 详细 讨论 .。) 
这 里 所 提 到 的 修改 建立 在 标准 SOM 算法 的 各 种 形式 上 。Linsker(1989b) 采用 一 种 完全 不 同 的 方法 。 
具体 地 ， 利 用 最 大 化 输出 信号 和 带 加 性 噪声 的 输 和 人 信号 之 间 的 互信 息 的 方法 ， 导 出 用 于 地 形 图 映射 
形成 的 全 局 学 习 规 则 ( 植 根 于 香农 信息 论 的 互信 息 的 定义 在 第 10 章 讨 论 ) Linsker 的 模型 产生 与 输 
人 分 布 精确 匹配 的 神经 元 分 布 。 利 用 信息 论 的 方法 以 自 组 织 方式 处 理 地 形 图 映射 形成 也 在 Van Hulle 
(1996, 1997) 中 有 所 讨论 。 

11. 在 Van Hulle(2002) 中 对 式 (9. 52) 右 端 第 二 项 的 忽视 是 基于 下 面 的 讨论 : 
。 对 高 斯 分 布 输入 向 量 x 所 获得 的 期 望 值 | x—w: il: 在 式 (9. 53) 中 定义 。 
。 在 光 维 放射 状 对 称 的 高 斯 分 布 中 ， 分 布 可 以 通过 取 mr 个 样本 来 建立 ， 每 个 样本 对 应 于 一 个 输入 维 数 。 
则 在 具有 相同 半径 的 一 维 高 斯 分 布 中 ， 当 权 值 更 新 量 Aw; 小 《这 假定 了 使 用 小 的 学 习 率 参数 yw) HE 
新 是 对 每 个 输入 维 数 分 别 〈 即 以 随机 顺序 ) 更 新 时 ， 可 以 忽略 式 (9. 52) 的 第 二 项 。 
习题 
SOM 算法 
9.1 RR gly) RM y; 的 非 线性 函数 ， 它 如 局 在 式 (9. 9) 中 那样 用 于 SOM 算法 。 如 果 ey, ) M5 Taylor 展 
开 的 常数 项 不 为 零 ， 讨 论 这 会 产生 什么 结 采 ? 

9.2 假设 x(v) 为 图 9.6 模型 的 噪声 v 的 光滑 函数 ， 利 用 式 (9. 19) 的 失真 度量 的 Taylor RT, AERP RD 
r(y) 导 致 的 曲率 项 。 

9.3 有 时 说 SOM 算法 保持 输入 空间 中 存在 的 拓扑 关系 。 严 格 地 说 ， 这 种 性 质 只 有 输入 空间 的 维 数 与 神经 元 
网 格 的 维 数 相等 或 再 低 时 才能 保证 。 讨 论 这 个 陈述 的 正确 性 。 

9.4 ”一般 说 基于 竞争 学 习 的 SOM 算法 对 硬件 故障 不 具有 容错 性 ， 但 是 算法 对 输入 的 小 的 扰动 引起 输出 从 获 
胜 神经 元 跳 到 相 邻 的 神经 元 具有 容错 性 。 讨 论 这 两 个 陈述 的 含义 。 

9.5 RH. 23) 表 示 的 SOM 算法 的 离散 形式 所 获得 的 批量 方式 ， 表 示 为 : 
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证 明 SOM 算法 的 这 种 形式 可 以 表示 成 和 Nadaraya- Watson 回归 估计 器 相似 的 形式 (Cherkassky and Mu- 
lier, 1995), TASES 5 章 已 经 讨论 过 。 
学 习 向 量 量化 
9.6 第 8 章 讨 论 的 最 大 特征 滤波 器 和 自 组 织 特征 映射 的 更 新 规则 都 利用 Hebb 学 习 假 设 的 修正 。 比 较 这 两 个 
修正 ， 说 明 它 们 的 异同 点 。 
9.7 良心 算法 是 SOM 算法 的 修正 ， 它 迫使 密度 匹配 是 精确 的 匹配 (DeSieno，1988)。 在 表 P9.7 所 总 结 的 良 
心算 法 中 ， 每 个 神经 元 保存 它 竞 争 获 胜 的 次 数 〈( 邑 它 的 突 触 权 值 问 量 在 欧 几 里 得 距离 下 成 为 由 离 输入 问 
量 最 近 的 神经 元 的 次 数 )。 这 里 使 用 的 概念 ， 就 是 如 果 一 个 神经 元 获胜 太 频 繁 ， 它 “感到 有 罪 ” 从 而 退 
hoe 
H TARAM BS ot BK eB PE Re. 5 BAME P9. 7 画 出 的 线性 输入 密度 训练 由 20 个 神 
经 元 组 成 的 一 维 网 格 〈 即 线性 排列 ) 。 
(a) 利用 计算 机 仿真 比较 由 良心 算法 和 SOM 算法 产生 的 密度 匹配 ， 对 SOM 算法 使 用 9 二 0.05 而 良心 算 
法 使 用 B=0. 0001, C=1.0 和 ?一 0.05。 
Cb) 作为 这 个 比较 的 参考 框架 ， 包 括 输入 密度 的 “精确 ”匹配 。 
讨论 你 的 计算 机 仿真 结果 。 





表 P9. 7 良心 算法 小 结 
1. 寻找 和 输入 向 量 x 最 近 的 突 触 权 值 向 量 wi : 


| X- W; | = min | XW; | 3 j=l, 25 anes N 
2. 保持 一 轮 神经 元 j 竞争 获胜 的 总 时 间 部 分 p;: 
pr = gld 十 Bly; p34) 
其 中 B 是 小 的 正 数 ， H. 


= {1， 如 果 神经 元 了 是 区 能 神 经 天 
Y \o, FH 
在 算法 开始 时 ，p; 初始 化 为 零 
3. 利用 和 良心 机 制 
| x—w; || = min( | x — w || — b) 


寻找 新 的 获胜 神经 元 ， 其 中 与 是 为 了 修改 竞争 而 引入 的 偏 置 项 ; 它 定义 为 


s =c- 
其 中 C 为 偏 置 因子 而 N 为 网 络 中 神经 元 的 总 数 。 
A, 更 新 获胜 神经 元 的 突 熊 权 值 问 基 ， 


wrew = wd p(x wel?) 
其 中 7 为 通常 在 SOM 算法 中 使 用 的 学 习 率 参数 。 


PE 


2.0 X> 


Xa 


一 1.0 xı 1.0 0 


图 P9.7 习题 9.7 的 图 图 P9.11 习题 9.11 的 图 
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核 SOM 
9.8 利用 作用 于 式 (9. 37) 的 式 (9. 40) 的 变换 公式 ， 推 导 式 (9. 41) 的 概率 密度 项 数 。 
9.9 这 一 习题 包括 两 部 分 ， 用 于 解决 推导 属于 核 SOM 算法 的 多 个 等 式 的 问题 : 


9. 10 


(a) 随机 变量 外 的 不 完全 gamma PH (样本 值 为 X 由 下 式 定 义 (Abramowitz and Stegun, 1965, 
p. 260): 


1 = 
Pxy(rla) = a5), t™exp(— 1) dt 
这 里 P(e) Æ gamma RM. A HE ASE SE gamma 分 布 的 补 为 ， 
r= ie eet: 


利用 这 两 个 公式 推导 式 (9. 43) cE RL ORO RS KR. 
(b) 利用 不 完全 gamma 分 布 作为 平均 神经 元 输出 y 的 定义 ， 对 偏 导 数 95(r)/3r 推导 式 (9. 51), 
WK SOM 算法 的 权 值 向 量 开 发 式 (9. 55) 的 近似 更 新 公式 时 ， 我 们 证 明了 对 式 (9. 52) 的 第 二 项 的 忽略 。 
然而 ， 对 于 核 宽 o 推导 式 (9. 58) 的 更 新 公式 时 没有 和 化 任何 近似 。 验 证 后 一 个 选择 。 


计算 机 实验 | 
9.11 在 这 个 试验 中 我 们 用 计算 机 仿真 研究 SOM 算法 应 用 于 具有 二 维 输入 的 一 维 网 格 。 网 格 由 65 个 神经 元 


组 成 。 输 入 由 图 P9.11 所 示 的 三 角形 内 均匀 分 布 的 随机 点 斧 成 。 计 算 由 SOM 算法 在 0,20,100,1000， 
10 000 和 25 000 次 和 迭代 后 产生 的 映射 。 
考虑 一 个 用 三 维 输 入 分 布 训练 的 二 维 神经 元 网 格 ， 网 格 由 10X 10 神经 元 构成 。 
(a) 在 由 下 式 定 义 的 小 区 域内 输入 是 均匀 分 布 的 。 

(O < xz <1), 0 < r: <1), (0< r; <0.2)} 

利用 SOM 算法 计算 输入 空间 在 50，1 000 和 10 000 次 算法 迭代 后 的 二 维 投影 。 
(b) 当 输 和 人 在 如 下 定义 的 一 个 更 大 的 区 域内 均匀 分 布 时 重复 你 的 计算 。 
(0 < ri <1), (0 < z: <1), (0 < zr: <0. 4)) 

(c) 当 输 入 在 如 下 定义 的 立方 体内 均匀 分 布 时 再 一 次 重复 你 的 计算 。 

(Oma 1), O< ar <1), 0< ar < )} 
讨论 你 的 计算 机 仿真 结果 的 含义 。 
在 SOM 算法 应 用 中 经 常 出 现 的 问题 是 不 能 形成 拓扑 排序 而 产生 “ 折 和 ”映射 。 当 人 允许 邻 域 体积 
衰减 太 快 时 就 会 发 生 这 个 问题 。 折 肆 映射 的 产生 可 以 看 作 拓扑 排序 过 程 形 成 某 种 形式 的 “局 
部 最 小 ”。 
为 了 研究 这 个 现象 ， 考 虑 一 个 10X20 神经 元 的 二 维 网 格 ， 用 在 正方 形 (( 一 1 过 zz 过 十 1),( 一 1 < ZX; < 
十 1)} 内 均匀 分 布 的 二 维 输入 训练 。 计 算 由 SOM 算法 产生 的 上 映射， 允许 获胜 神经 元 周围 的 邻 域 函数 比 
正常 使 用 的 训 减 快 得 多 。 你 可 能 需要 重复 几 次 试验 才能 看 到 排序 过 程 的 失败 。 
SOM 算法 的 拓扑 排序 性 质 可 以 用 于 形成 高 维 输入 空间 的 一 种 抽象 的 二 维 表 示 形 式 。 为 了 研究 这 种 表示 
形式 ， 考 虑 由 10X10 神经 元 组 成 的 二 维 网 格 ， 它 的 训练 输入 空间 由 8 维 空间 的 4 个 高 斯 去 下 1,， 志 12， 
€13 MEL 构成 。 所 有 云 具 有 单位 方差 但 其 中 心 不 同 。 它 们 的 中 心 位 置 分 别 为 (0,0,0,…,0),(4,0， 
0 ,0,0) (4,4,070) 和 (C0,4,0,…,0) 。 计 算 由 SOM 算法 产生 的 映射 ,在 映射 中 每 个 神经 元 的 类 别 
和 在 该 神经 元 周围 输入 点 中 具有 最 多 输入 点 的 类 别 相同 。 
表 P9.15 给 出 重 正规 化 SOM 算法 的 小 结 ; 在 第 9. 3 节 给 出 了 算法 的 简要 描述 。 比 较 常规 的 和 重 正规 化 
的 SOM 算法 ， 注 意 以 下 两 个 问题 : 
1. BEM RY BRE. 
2. 训练 花费 的 计算 机 时 间 。 
利用 从 一 个 正方 形 内 的 均匀 分 布 中 抽取 的 数据 ， 且 按照 下 列 两 个 网 络 配置 来 说 明 这 两 种 算法 的 比较 : 
Ca) 257 个 神经 元 的 一 维 网 格 。 
(b) 2094 个 神经 元 的 一 维 网 格 。 
在 这 两 种 情形 都 以 2 个 编码 向 量 开始 。 
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表 P9. 15 重 正规 化 训练 算法 小 结 (一 维 形式 ) 


1. 初始 化 。 置 编码 向 量 的 数目 为 一 小 整数 〈 例 如 ， 为 简单 起 见 使 用 2 或 对 所 求 问 题 更 具 代表 性 的 其 他 数目 )。 
从 训练 集中 随机 选择 相应 数目 的 训练 向 量 初始 化 它们 的 位 置 。 

2. 选择 一 个 给 入 向 量 。 从 训练 集中 随机 选择 一 个 输入 向 量 。 

3. 输入 向 量 编码 。 确 定 获 胜 编 码 向 量 〈 即 获胜 神经 元 的 突 触 权 值 向 量 )。 为 了 做 到 这 一 点 ， 在 和 需要 时 使 用 “最 
近邻 ”或 “最 小 失真 ”编码 方法 。 

4. 码 书 更 新 。 执 行 通常 的 “获胜 者 和 它 的 拓扑 邻 域 ”更 新 。 你 会 发 现 保持 学 习 率 参数 7 固定 (如 0. 125) RA 
够 了 。 例 如 更 新 获胜 神经 元 使 用 7 而 它 的 最 近邻 使 用 7/2。 

5. 码 书 分 裂 了 。 继 续 码 书 更 新 (第 4 步 )， 每 次 使 用 随机 训练 集中 挑选 的 新 输入 向 量 直到 码 书 更 新 的 次 数 是 码 字 
向 量 数 目的 10 一 30 倍 。 这 时 码 书 大 概 已 经 稳定 ， 应 该 进行 码 书 分 裂 。 为 做 到 这 一 点 你 既 可 以 采用 你 所 有 的 码 字 疝 
Ht) Peano 串 ， 朋 对 它们 的 位 置 进行 插值 以 产生 对 Peano 串 的 更 小 粒度 的 通 近 ;也 可 以 简单 向 每 两 个 已 有 的 码 字 
向 量 连 线 添 加 另外 码 字 向 量 。 

6. 训练 完成 。 继 续 进 行 码 书 更 新 和 码 书 分 裂 直到 码 字 向 量 总 数 达 到 某 一 预定 值 《 如 100) ， 这 时 整个 训练 结束 。 


QD 码 书 分 裂 近 似 在 每 一 回合 时 加 倍 码 字 向 量 的 数目 ， 所 以 达到 任何 预定 的 码 字数 目 无 需 花 费 许多 的 回合 。 


9.16 考虑 图 P9. 16 所 示 的 信和 号 空间 图 对 应 的 M 行 脉冲 幅度 调制 (M-level pulse-amplitude modulation, 
PAM), M=8. fS AWM T Gray 编码 数据 块 。 每 个 信和 号 点 由 具有 合适 幅度 尺度 的 窍 形 冲击 信号 
表示 : 


pln =+1,4+2,43,45, OKS T 


其 中 了 为 信号 区 间 。 在 接收 器 输入 端 ， 对 具有 变化 的 信 品 比 〈signal-to-noise ratio, SNR) 的 传输 信号 
添加 零 均 值 的 高 斯 噪声 。SNR 定义 为 传输 信号 能 量 平均 和 噪声 能 量 平 均 的 比值 。 
(a) 利用 随机 二 值 序列 作为 发 送 器 输入 ， 产 生 表 示 SNR=10, 20, 30 分 中 的 接收 信号 数据 。 
(b) 对 这 些 SNR， 建 立 自 组 织 特征 上 映射。 你 可 使 用 的 — 典 型 值 为 ， 

。 对 接受 信号 以 8 倍 信号 率 采 样 获得 的 8 个 元 素 构成 输 人 回 量 ( 即 每 个 信号 区 间 8 个 样本 )。 假 

设 不 知道 时 间 信 息 。 

© 64 个 神经 元 的 一 维 网 格 〈 即 输入 向 量 大 小 的 8 僧 )。 

(c) 对 三 个 SNR 显示 特征 映射 ， 由 此 表示 SOM 算法 的 拓扑 排序 性 质 。 
码 字 000 001 011 010 110 111 101 100 


脉冲 幅度 





图 P9.16 习题 9.16 的 图 
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Neural Networks and Learning Machines, 3E 


信息 论 学 习 模 型 
本 章 组 织 
本 章 的 主题 是 学 习 以 一 种 或 多 种 根植 于 信息 论 的 方式 构成 非 监 督学 习 模 型 。 
本 章 的 组 织 如 下 : 


10. 1 节 介 绍 信 息 论 的 引导 素材 以 及 其 对 于 神经 元 处 理 的 深刻 影响 。 

10. 2 到 10.6 节 回 顾 香 农 信息 论 的 基本 概念 。 从 10.2 节 的 粹 的 概念 开始 ， 接 着 在 10.3 节 中 介 
ARKAE. 10.4 节 讨 论 在 连续 随机 变量 对 之 间 的 互信 息 概 念 并 检测 其 关联 性 。 相 对 精 的 相关 概 
您 提供 了 对 于 一 对 不 同 的 概率 密度 函数 之 间 相 匹配 的 程度 的 度量 ， 这 在 10.5 节 中 讨论 。10.6 节 通 过 
描述 系 词 来 完成 整个 回顾 ， 已 经 发 现 了 几 十 年 的 系 词 是 一 个 有 用 的 概念 但 很 大 程度 上 被 忽视 了 。 

10.7 节 讨 论 作为 非 监督 学 习 目 标 函 数 的 互信 息 规则 ， 从 而 为 讨论 下 面 的 五 个 原则 及 其 应 
用 铺垫 ， 这 在 10.8 节 到 10.12% WR: 

。 最 大 互信 息 (Infomax) 原则 

。 最 小 宛 余 原则 

。 处 理 空间 相干 特征 的 Imax 原则 

。 处 理 空间 不 相干 特征 的 Imin 原则 

。 独立 分 量 分 析 (CA) 原则 

10.13 节 讨 论 稀 疏 问 题 ， 这 是 自然 图 像 的 内 在 特点 ; 这 一 节 也 通过 描述 其 和 稀 玖 的 关系 为 
ICA 提供 了 动机 。 

10. 14 节 到 10.17 节 措 述 不 同 的 ICA 算法 ， 强 调 其 实际 优点 和 局 限 性 : 

。 自然 梯度 学 习 算 法 

。 最 大 似 然 估计 

。 RAMA BK 

。 at AP AN OE BPE N ag FastICA 

10. 18 节 讨 论 称 为 相关 ICA 的 新 概念 ， 这 是 建立 在 对 系 词 的 运用 之 上 的 。 

10.19 节 介 绍 另 一 个 新 的 且 吸 引 人 的 方法 叫做 信息 瓶颈 〈IB) 方法 ， 这 是 建立 在 香农 信息 
论 的 另 一 个 概念 之 上 的 : 速率 失真 理论 。IB 方法 为 数据 的 最 优 流 形 表达 的 讲述 铺 平 了 道路 ， 
这 将 在 10. 20 节 讨 论 ， 紧 接着 在 10. 21 节 给 出 一 个 计算 机 实验 。 

本 章 通 过 10. 22 节 的 总 结 和 结论 来 结束 。 


10.1 引言 


香农 在 1948 年 发 表 的 经 典 论文 中 ， 为 信息 论 莫 定 了 基础 。 香 农 在 信息 论 方面 的 开创 性 工作 
和 其 他 的 研究 工作 者 对 它 的 补充 ， 是 对 电子 工程 师 设计 高 效 可 靠 通信 系统 的 需求 的 直接 回应 。 无 
论 它 的 实际 起 源 是 什么 ， 如 我 们 今天 所 知道 的 信息 论 正 是 关于 通信 过 程 本 质 的 深刻 数学 理论 。 这 
个 理论 提供 一 个 对 根本 问题 研究 的 总 体 框 架 ， 例 如 ， 信 息 表 示 的 效率 以 及 通信 信道 可 靠 信息 传输 
的 极限 问题 。 而 且 该 理论 包括 很 多 有 力 的 定理 用 以 计算 最 佳 表示 和 信号 所 携带 信息 的 传输 的 理想 
界限 。 这 些 界限 非常 重要 ， 因 为 它们 为 提高 信息 处 理 系统 的 设计 提供 了 标准 。 

本 章 的 主要 目的 是 讨论 以 一 种 原则 性 方式 导致 自 组 织 的 信息 论 模 型 。 在 这 个 背景 下 ， 特 别 
值得 注意 的 模型 是 由 Linsker(1988a，b) 提出 的 最 大 互信 息 原 则 (maximum mutual informa- 
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tion principle) 。 该 原则 表明 ; 

多 层 神 经 网 络 的 突 触 连接 以 这 样 一 种 方式 进行 在 网 络 的 每 个 处 理 阶 段 ， 当 进行 信号 变换 
时 ， 为 保留 的 信息 量 达 到 最 大 ， 要 遵从 一 定 的 约束 条 件 。 

利用 信息 论 来 解释 人 们 的 感知 过 程 并 不 是 什么 新 的 想法 。 例 如 ， 在 Attneave(1954) 的 一 
篇 早期 论文 中 提出 了 关于 感知 系统 的 信息 论 作 用 : 

感知 机 制 的 一 个 主要 功能 是 减少 刺激 的 宛 余 ， 以 一 种 比 它 冲击 接收 器 的 形式 更 经 济 的 方式 
对 信息 进行 描述 或 编码 。 

在 Attneave 的 论文 背后 的 主要 思想 在 于 认识 到 为 减少 元 余 对 场景 数据 编码 和 确认 场景 中 


特定 特征 是 相关 的 。 这 种 重要 认识 和 在 Craik(1943) 描述 的 关于 人 脑 的 观点 相关 ， 在 该 论文 中 
构造 了 一 个 外 部 世界 的 模型 以 便 结 合 现 实 的 规则 和 和 约束。 


10.2 W 


对 于 一 个 随机 变量 X， 它 的 每 一 个 实现 〈 出 现 ) 可 看 作 一 个 消息 。 严 格 地 说 ， 如 果 随 机 变 
量 X 的 幅度 值 是 连续 的 ， 则 它 带 有 无 穷 的 信息 。 但 是 ， 从 物理 和 生物 的 角度 来 看 ， 我 们 认识 
到 讨论 具有 无 限 精度 的 幅度 度量 的 信息 是 没有 意义 的 ， 这 就 是 说 可 以 把 X 的 值 一 致 量化 到 有 
限 的 离散 水 平 。 这 样 我 们 可 以 把 X 看 成 是 离散 的 随机 变量 ， 其 模型 为 
有 alk = Op tl EK) (10. 1) 
其 中 x, 是 一 个 离散 的 数值 且 〈2K 十 1) 是 总 的 离散 水 平 。 假 设 离散 水 平 之 间 的 间隔 6 非常 小 ， 
能 够 以 足够 的 精度 来 描述 我 们 感 兴趣 的 变量 。 当 然 我 们 能 够 接近 连续 的 极限 ， 只 要 6. 一 0 且 K 
趋 于 无 穷 ， 在 这 种 情况 下 就 得 到 连续 变量 而 且 求 和 变 成 积分 。 
为 完善 模型 ， 让 事件 X= Zk 以 概率 
pe = P(X = x) (10. 2) 


发 生 ， 其 中 要 求 
0<pa<1 和 Sad (10. 3) 


假如 事件 X= 二 x 发 生 的 概率 pi; 二 1， 因此 要 求 对 所 有 ith BLA p.~0, 在 这 种 情况 下 ， 如 采 事 
fe X=2, 发 生 就 没有 什么 “惊奇 ”的 了 ， 并 且 不 传达 任何 “信息 ”， 因 为 我 们 知道 消息 必须 是 
什么 。 在 另 一 种 情况 下 ， 如 果 各 种 离散 水 平 发 生 的 概率 不 同 ， 概 率 pe 特别 小 ， 那 么 当 X HUB 
zs 而 不 是 具有 更 高 概率 p, 的 离散 水 平 x; GAD, RRABRAN “ha” HMA “RR” T. 
因此 “不 确定 ”、“ 惊 奇 ” 和 “信息 ”是 相关 的 。 在 X= 立 发 生 之 前 ， 有 一 定 的 不 确定 性 。 在 
X 一 z 发 生 之 后 ， 有 一 定 惊奇 。 在 XSr 发 生 之 后 ， 信 息 量 增加 了 。 这 里 的 三 个 量 很 显然 是 
一 样 的 ， 而 且 信 息 量 与 事件 发 生 的 概率 成 反比 。 
我 们 定义 观察 到 具有 概率 ps WEE X =x, 后 所 获得 的 信息 增益 量 为 对 数 函 数 


a= log(=-) =— log bi (10. 4) 


其 中 对 数 函 数 的 底 是 任意 的 。 当 以 自然 对 数 为 底 时 ,信息 的 单位 是 奈 特 (nat)， 当 以 2 Ws 
时 ， 单 位 是 比特 (bit)。 在 任何 情况 下 以 式 (10. 4) 定 义 的 信息 量 都 有 以 下 的 性 质 ; 


l. ICx) = Q, 当 Pr =] (10. 5) 
显然 ， 如 果 我 们 绝对 肯定 将 发 生 的 事件 ， 则 当 其 发 生 时 就 没有 获得 信息 。 
2 Kaa), 40<p<1 (10. 6) 


也 就 是 说 ， 当 事件 X=2, 发 生 时 ， 或 提供 一 些 信息 或 不 提供 信息 ， 但 不 会 导致 信息 损失 。 
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A I (x) DI Cr), X <p; (10. 7) 
也 就 是 说 ， 小 概率 事件 发 生 时 携带 的 信息 量 比 大 概率 事件 发 生 时 携带 的 信息 量 多 。 
信息 量 (xi) 也 是 一 个 具有 概率 pi 的 离散 随机 变量 。IT(Czxi) 在 全 部 2K 十 1 个 离散 数值 上 的 

平均 值 定 义 为 : 


H(X) = ELI(a,)] = Dra 一 一 Dprlog pi (10. 8) 


tt H(X) uik — si 可 取 有 限 离 散 值 的 随机 变量 BG 之 所 以 称 为 炉 是 因为 式 (10 8) 给 出 
的 定义 与 统计 热力 学 中 的 焙 非 常 相 似 :。 灯 五 (X) 表 示 每 一 个 消息 所 携带 的 信息 的 平均 量 
注意 在 吾 (X) 中 X 不 是 HC(X) 的 变量 ， 而 是 一 个 随机 变量 的 标记 。 同 时 注意 到 在 式 (10. 8) 中 我 们 取 
0 log 0 为 0。 
Wi 互 (X) 被 限定 如 下 : 
< H(X) < log(2K +1) (10. 9) 
其 中 (2K 十 1) 是 总 PERR 进一步 ， 我 们 做 如 下 说 明 : 
1. HCX)=0 当 且 仅 当 对 于 某 一 个 上 概率 pi 二 1 时 ， 而 集合 中 其 他 的 概率 为 0; MNT 
下 界 不 对 应 不 确定 性 。 
2, H(X)=log(2K+1) 当 且 仅 当 对 所 有 的 上 &，pi 二 1/(2K 十 1)( 嗓 所 有 的 离散 值 的 概率 相 
等 ); 这 个 上 界 对 应 最 大 不 确定 性 。 
连续 随机 变量 的 微分 精 
信息 论 概念 的 讨论 现在 只 涉及 它们 的 幅度 离散 的 随机 变量 总 体 。 现 在 我 们 将 这 些 概念 中 的 
一 些 扩 展 到 连续 随机 变量 。 
假设 连续 随机 变量 X 的 概率 密度 函数 是 px (oe). HR RMR He RR, RN 
定义 如 下 : 
h(X) 一 一 | px(x)log px(r)dx 一 一 ELiog px(r) | (10. 10) 


wACX) MAX AIA Cdifferential entropy), 与 一 般 的 或 绝对 炉 相 区 别 。 
我 们 对 使 用 式 (10. 10) 的 合理 性 可 以 解释 如 下 。 开 始 将 连续 随机 变量 X 看 成 离散 随机 变量 
的 极限 形式 ， 设 r, 一 外 rz, 其 中 & 一 0, 士 1], 士 2,…，, 且 8Sz 趋 于 0。 由 定义 ， 连 续 随 机 变量 X 取 
— Creer, Her] ZARRA px (ri)86r。 所 以 ， 当 dx 趋 于 0 时 连续 随机 变量 X BE aT 
写成 如 下 极限 的 形式 : 


H(X)=— lim >) px (xi)drlog( px (x )67) 


二 lim| ) 2 px (xs) Clog px xi))6r + logdx 23 | Bx (2) ar | 


z7 | px(x)log px (x) dr — limlogér | _ pdx 
= A(X) — limlogéxr | (10. 11) 
ert 


其 中 最 后 一 行 用 到 了 式 (10. 10) 以 及 在 概率 密度 函数 px(z) 下 方 的 总 面积 为 1 这 个 事实 。 当 6x 
趋 于 0 时， 一 log dr TEJ. MLERKRAELMIULESH MEH XK. a. 我 们 也 期 望 
这 是 真 的 ， 因 为 随机 变量 可 以 在 C 09,00) 上 任意 取 值 ， 和 随机 变量 相关 联 的 不 确定 性 是 无 穷 
大 的 。 为 了 避免 随 着 项 log or 所 带 来 的 问题 ， 我 们 采用 OKADA. M— log dx 作为 参 
考 。 而 且 ， 由 于 炳 作为 一 个 随机 系统 处 理 的 信息 实体 ， 我 们 感 兴趣 的 实际 上 是 具有 相同 参考 的 
两 个 业 项 的 差 ， 信 息 将 和 相应 微分 粹 项 之 间 的 差 是 一 样 的 。 所 以 我 们 完全 有 理由 采用 在 式 
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(10. 11) 所 定义 的 项 h(X) 作 为 连续 随机 变量 X 的 微分 粒 。 
当 有 一 个 由 7 个 随机 变量 XX Xo X, 组 成 的 随机 连续 问 量 X 时 ， RIE X a 
An 重 积 分 


ACK) 一 一 | px)log px Cx) dx 一 一 ELlog px (x)] (10. 12) 
其 中 px (x) 是 XX 的 联合 概率 密度 孔 数 ，x 是 XX 的 一 个 样本 。 
例 1 均匀 分 布 
考虑 在 [0,a] 区 间 上 均匀 分 布 的 随机 变量 X， 其 概率 密度 函数 为 ， 
Ly OKrsa 
px (ZX) -1 (10. 13) 
0, 否则 
X 的 微分 炳 为 : 


RCX) =- | llog (= )ar EE 
X a< l, loga 为 负 ， 这 意味 着 粹 CX) 是 负 的 。 因 而 我 们 可 以 说 ， 和 离散 随机 变量 的 微分 炉 不 


同 ， 连 续 随机 变量 的 微分 焙 可 以 假设 为 负 值 。 
当 a 二 ]， 微 分 焙 h(X) 设 为 0。 可 以 说 一 致 分 布 随机 变量 在 所 有 随机 变量 中 包含 最 小 量 的 


信息 。 E 
$5) FRG R PE A 
从 式 (10. 107 给 出 的 微分 精 由 (XI) 的 定义 中 容易 看 出 变换 不 会 改变 它 的 值 ， 即 
A(X +c) = ACX) (10. 14) 
其 中 c 为 常量 。 
A(X)》 另 一 个 有 用 的 性 质 是 : 
h(aX) = h(X) + log|a| (10. 15) 
Hha Wythe, BERRA. RÉA RRA ERRATA MRE 1, KH 
ee eee es 
py(y) = yer (2 ) (10. 16) 


接着 应 用 式 (10. 10) ， 可 写成 
bY) =—ELlog pry] =—H log (77pY (>))) 


=—F| log py (>) | +loglal (10. 17) 
WA Y=aX 得 到 
h(aX) 一 一 | px (x)log px(z)dz 十 logla| 


由 此 立刻 得 出 式 (10. 15), 
式 (10. 15) 用 于 标量 的 随机 变量 ， 也 可 以 推广 用 于 随机 向 量 X 乘 以 和 矩阵 A 的 情况 如 下 : 
h(AX) = A(X) + log | det(A) | (10. 18) 


其 中 det(A) 是 矩阵 A 的 行列 式 。 


10.3 RAM 


假设 有 -一 个 随机 系统 ， 已 知 一 组 状态 ， 但 不 知 其 概率 ， 而 且 我 们 知道 这 些 状 态 的 概率 分 布 
的 一 些 限制 条 件 。 这 些 条 件 或 者 是 已 知 一 定 的 总 体 平均 值 ， 或 者 是 它们 的 一 些 界 限 。 在 给 定 关 
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于 模型 的 先 验 知 识 的 条 件 下 ， 问 题 是 选择 一 个 在 基 种 意义 下 最 佳 的 概率 模型 。 我 们 经 常 发 现 有 
无 穷 多 种 模型 可 以 满足 该 条 件 。 应 该 选择 哪个 模型 呢 ? 

这 个 基本 问题 的 答案 基于 Jaynes(1957) EH RAKAM. BARR DORA 
(Jaynes, 1957, 2003), 

BAUR FA AAR HM. DPRPBLPARHAHAYAA RAH RS 
分 布 推 得 。 

实际 上 ， 箭 的 概念 在 概率 分 布 空间 定义 一 种 度量 ， 使 得 具有 较 高 精 的 分 布 比 其 他 的 分 布 具 
有 更 大 的 值 ， 

MER. US “BARR” BARRERA. SHAMS aN eR, 
ZERA 

h(X) =— |" px(xlog EE 


对 所 有 随机 变量 X 的 概率 密度 函数 px(z)， 并 满足 以 下 约束 条 件 :. 
1. px (x) 之 0， 在 工 的 支持 集 之 外 等 式 成 立 


Zi | px(x)}dz = 1 


Ss I px Cx) gr) dr == ais XT i= LI 


其 中 g,(z) 是 工 的 一 部 分 函数 。 约 束 1 和 约束 2 描述 概率 密度 函数 的 基本 属性 ， 约 束 3 定 
MEX OH, CMBR g& (x) 的 表达 式 不 同 而 发 生变 化 。 实 际 上 ， 约 束 3 综合 随机 变量 X 的 
可 用 先 验 知识 。 为 了 解 这 个 约束 最 优化 问题 ， 我 们 利用 第 6 章 讨 论 过 的 拉 格 朗 日 乘 子 法 。 具 体 
来 说 ， 首 先 形成 拉 格 朗 日 函数 

1¢p) = 人 [= pr olog pra + dope) + Yagi px dr (10.19 
FL Ay Ars An EPL RA. RGO. 19) ARBOR px (z) 的 微分 ， 并 使 其 为 
0， 得 到 


一 1 一 log px(Cz) 十 Mo 十 >NgiCZ) = 0 


解 此 方程 得 

px(x) = exp(—1+a + DNigilz)) (10. 20) 
在 式 (10, 20) URLS BH A RF RARE 2 和 3 选择 。 式 (10. 20) RAPA RK 
分 布 。 


例 2 一 维 高 斯 分 布 
假设 我 们 可 用 的 先 验 知识 为 随机 变量 X 的 均值 和 方差 o*。 根 据 定义 ， 随 机 变量 立 的 方 
差 由 下 式 给 出 : 
| œW prda =o = $% 
将 此 式 与 约束 条 件 3 作 比 较 ， 看 出 
gilr) = (x—p)’ 
各 


所 以 应 用 式 (10. 20) 可 得 
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px (x) = expL 一 1 十 je +A (rz — pw)" ] 
注意 如 果 px (x) A(x — 0)? px(x) 对 工 的 积分 是 收敛 的 ， 则 ) 为 负数 。 将 此 等 式 代 人 约束 条 件 
2 #13, PRADA. Al AL, 得到: 
ào = 1 — log(2n0’ ) 
和 


所 以 希望 的 px(z) 的 分 布 形 式 为 
px (x) = 





2 59 
l exp(— E>) (10. 21) 
o 


这 是 一 个 均值 为 pr 和 方差 为 o* 的 高 斯 随机 变量 X ORAS RBH, EE R EnA E a 
的 最 大 值 为 : : 
h(X) = SCI 十 log(2xo?] (10. 22) 


对 这 个 例子 我 们 总 结 如 下 : 

1. 对 于 给 定 的 方差 吕 ， 在 任意 的 随机 变量 中 高 斯 随机 变量 取得 微分 炉 的 最 大 值 。 也 就 是 说 ， 

如 果 和 是 一 个 高 斯 随机 变量 ,了 是 其 他 具有 相同 均值 和 方差 的 随机 变量 ， 则 对 所 有 的 了 
ACX) > h(Y) 

只 有 当 随 机 变量 Y 也 是 高 斯 时 等 式 成 立 。 

2. 高 斯 随机 变量 X 的 炉 值 唯一 取决 于 义 的 方差 ( 即 与 处 的 均值 无 关 )，。 m 

例 3 多 维 高 斯 分 布 

在 这 第 二 个 例子 中 ， 我 们 想 在 例 2 的 结果 基础 上 上， 建立 计 算 多 维 高 斯 分 布 的 微分 焙 的 计算 
AA. APR OAS RL X 的 均值 无 关 ， 为 简化 讨论 ， 我 们 可 以 仅 讨论 具有 均值 
为 0 的 随机 变量 X。 这 样 必 的 二 阶 统计 性 质 由 其 协 方差 矩阵 三 决定 ， 它 为 和 同 自 号 的 外 积 的 期 
望 所 定义 。 这 样 X 的 联合 概率 密度 晒 数 由 


px x) = : exp (一 Fx Ex) | (10. 23) 


(2x)"” (det(S) )” 2 
给 出 (Wilks, 1962), Ht det(X) Æ UMAR, A (10.12 EX XED. Alber 
(10. 23) 代 人 式 (10. 12) ， 得 到 


xo [m+ mlog(2n) ln ey i] (10. 24) 


这 包括 式 (10. 22D HASH, BRAINS. RITA: 

TAL MAMA AERE, AMARAN AETA HAA PY, X(10.23)2 
L$ LEMPRLARKMADM, HEARD MBHAC.2RAX, RB “A” SMM 
向 量 久 的 分 量 的 另 一 种 称呼 。 z 


10.4 互信 息 


考虑 一 对 连续 随机 变量 X 和 Y， 这 两 者 是 相关 的 。 由 概率 理论 ,可 将 XX 和 YY 的 联合 概率 


密度 表示 为 : 
Py (TXT,Y) = py Cy |x) px (a) C10. 25) 


PA. AR oP MA KE MR 
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ACX.Y) = A(X) +ACY|X) (10. 26) 
这 里 ACX.Y RA X MY 的 联合 微分 焙 ， 且 hl(Y | 外) 称 为 给 定 祥 ，YY OREM. APR 
描述 ， 可 以 说 关于 X MY 的 不 确定 性 等 于 关于 XX 的 不 确定 性 加 上 给 定 X 时 Y 的 不 确定 性 。 相 
似 地 ， 可 以 说 关于 有 和 Y 的 不 确定 性 等 于 Y 的 不 确定 性 加 上 给 定 Y 时 XX 的 不 确定 性 ， 如 下 
AT : 
ACX,Y) = ACY) +ACX|Y) (10. 27) 
下 面 考虑 一 个 更 加 结构 化 的 状况 ， 这 包含 了 一 个 随机 神经 系统 ， 其 中 连续 随机 变量 X 应 
用 到 系统 的 输入 ， 在 系统 的 输出 端 产生 了 一 个 连续 随机 变量 Y。 通 过 定义 ， 微 分 粹 h(X) 是 在 
观察 系统 输出 Y 之 前 关于 系统 输入 X 的 不 确定 性 ， 而 条 件 微分 炉 互 (X1Y) 是 在 观察 了 系统 输 
出 了 之 后 的 系统 输入 XX 的 不 确定 性 。 其 差 及 (XX) 一 H(X|Y) 就 是 由 观察 系统 输出 Y 所 决定 的 
系统 输入 X 的 不 确定 性 。 这 一 炉 差 称 为 系统 输入 X 和 系统 输出 Y 之 间 的 互信 息 ; WA 
I(X;Y) ,因此 可 以 与 为 : 
Oe Oo te ah oa | | px Cre yrlog (PRESS? )dzdy 
= Ss Px [x E ly) Pr D log( PELE )dzdy (10. 28) 
对 于 式 (10. 28) 中 第 一 行 到 第 二 行 的 转变 ， 参 看 习题 10.2. WHEAT. AAA 
h(X) = I(X;X) 
式 (10. 28) 中 互信 息 IX; 2 的 公式 表示 为 微分 AX). WM, HAA I(Y;XX) 可 以 表示 为 
Oy Sy hh CY) 





ICY;X) = ACY) — hY |X) (10. 29) 
其 中 ACY|XOORBE XW Y WAAR. BR I(Y; X) 是 通过 观察 系统 输 和 人 X 得 到 的 关 
于 系统 输出 Y 的 不 确定 性 。 
两 个 连续 随机 变量 X 和 Y 之 间 的 互信 息 具 有 三 个 重要 性 质 : 
性 质 1 非 负 性 


B48 IX; YYA, Pp 
I(X;Y) > 0 (10. 30) 
这 个 性 质 说 明 ， 通 过 观测 系统 的 输出 YY， 平均 说 来 我 们 不 可 能 丢失 系统 输入 X 的 信息 。 而 且 ， 
当 且 仅 当 输入 和 输出 统计 独立 时 互信 息 为 0。 
性 质 2 对 称 性 
这 第 二 个 性 质 说 明 
I(Y;X) = I(X;Y) (10. 31) 
性 质 1 和 性 质 2 可 由 式 (10. 28) 的 定义 公式 直接 得 到 。 
将 式 (10. 26) 到 式 (10. 31) 综 合 起 来 ， 我 们 有 
T(X;Y) = hCX) —hACX|Y) = ACY) — ACY |X) = (A(X) 十 六 Y)) — CX, Y) (10. 32) 


ee 
2003). AAWA X HAA RNA RE 2 个 = 





第 3 个 矩形 来 表示 。X 和 了 之 间 的 互信 息 表 h (YD 
示 为 图 中 的 阴影 区 域 ， 通 过 这 两 个 矩形 之 间 的 = ; neas 

hx an 
HERR. AP was TRA MACX.Y) 的 
AR UT RE A CX | Y) ACY |X). 图 10.1 式 (10. 32) 中 包含 的 关系 ， 包 括 互 信息 I(X; Y) 
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性 质 3 不 变性 
在 随机 变量 的 可 北 变 换 下 互信 息 是 不 变 的 。 
考虑 可 逆 变 换 
u = f(x) 
和 
v= gly) 
HEt r Hy 是 随机 变量 X 和 Y 的 样本 ，w 和 w 是 变换 后 的 随机 变量 U 和 VV 的 样本 值 。 互 信息 
的 不 变性 说 明 : 
I(X;Y) = KU;V) = (10. 33) 
HFA rA u 的 变换 以 及 从 yy Ble 的 变换 都 是 可 道 的 ， 在 这 两 个 变换 的 过 程 中 没有 损失 信息 。 
从 直觉 上 ， 这 一 结果 验证 了 互信 息 的 不 变性 。 
互信 息 的 一 般 性 
在 式 (10. 28) 中 给 出 的 互信 息 ITCX:Y) 的 定义 应 用 于 标量 随机 变量 X 和 Y。 这 个 定义 也 易 
于 扩展 至 随机 向 量 X 和 YY， 因 此 可 以 写成 T(X;iY)。 有 具体 地 ， 定 义 互 信息 1(X;Y) 为 


I(X;Y) = h(X) —A(X| Y) = | | pax (y) log ( -2N )dxdy 
—ox yf O xX Y 


-| S akapang a (10. 38 
Py OOY) 


互信 息 TCX;Y) 同 样 具 有 与 式 (10. 30) 和 式 (10, 31) 的 关于 标量 随机 变量 性 质 平行 的 性 质 ， 这 和 直 
观 上 是 满足 的 。 


10.5 FARA 


在 式 (10. 34) 中 定义 的 互信 息 TI(X; Y)， 作 用 于 随机 神经 系统 ， 其 输入 和 输出 相应 地 记 为 
多 维 向 量 X 和 Y。 下 面 考虑 同样 的 系统 ， 但 这 一 次 我 们 有 两 个 不 同 的 概率 密度 函数 px(x) 和 
gx(x) 作 为 输入 向 量 X 的 潜在 的 可 能 说 明 。 然 后 我 们 可 以 定义 在 px(x) 和 gx(Cx) 之 间 的 相对 和 炳 
(KLD) 如 下 CKullback, 1968; Shore and Johnson, 1980); 





Dae \ pD log( E )dx = 有 E| log (25) (10. 35) 
FE h pi RHH Et HE E EE PR px (Xx)。 
KLD 有 两 个 其 自身 特有 的 性 质 : 
性 质 1 非 负 性 
这 个 性 质 表 有明 
Dpi 之 0 (10. 36) 


对 于 gx (x) 二 px (x) 的 特例 ， 两 个 分 布 完 全 重合 ， 而 KLD 正好 为 零 。 
性 质 2 不 变性 
考虑 可 逆 变 换 
y = f(x) 
其 中 x 和 y 是 相应 的 随机 变量 X 和 YY 的 样本 。 相 应 地 ，KLD 在 这 个 变换 下 是 不 变 的 ， 这 县 


味 着 
D,. iy D,, lg, 


D, 1。 et FRAME X AY KLD, Ds, 4s, 是 相应 于 变换 后 输出 向 量 Y 的 KLD, 
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HR HG AA SZ HY HH KH 
一 对 向 量 X 和 YY 之 间 的 互信 息 ICS) ASTRA Te ROE. AS RADARS 
式 (10. 34) 的 第 二 行 ， 有 


I(X;Y) = =e Pry (xy )log( PEER) dxdy 


然后 将 这 一 式 子 和 式 (10. 35) 作 比较 。 我 们 立即 推 得 

ICKsY) = D, 15,2, (10. 37) 
总 的 来 说 , XAY SE BIB TI(X;Y) 等 于 联合 概率 密度 函数 px.y (x,y) 以 及 概率 密度 函数 
Dx (x) Al py Cy) HY SR RY HERT R o 


HA RH AE BF RE 


式 (10. 37) 描 述 的 后 一 结果 的 特例 是 mX1 的 随机 向 量 X 的 概率 密度 函数 px (xX) 和 它 的 m 个 边 
缘 概率 密度 函数 的 积 的 相对 精 。 令 zx (z;) 记分 量 X: 的 第 i TWA RR, EOLA: 


Px (x;) = | px (x) dx” = 1,525°%* sm (10. 38) 
其 中 x? 是 一 个 从 向 量 z 中 除去 第 i 个 元 素 后 的 〈m 一 1) X1 向 量 。 定 义 级 乘 分 布 为 
P = J] dx, (ed) 


这 表示 一 个 随机 变量 的 独立 集合 。 这 个 集合 中 的 第 i 个 分 量 X; 的 分 布 是 和 原始 随机 向 量 多 的 
第 ; 个 边缘 分 布 相同 的 。 通 常 概率 分 布 羔 (x) 和 级 乘 配 对 Bx GO ZIM KLD 定义 为 





pxCx) 
Deas = | Gokel dx 
| 让 天 cao 
= j nobe kare > | px(x)log Px, (xi) dx (10. 39) 


根据 定义 ， 式 (10. 39) 第 二 行 右边 第 一 个 积分 等 于 一 h(X)， 其 中 hh(X) 是 XX 的 微分 入 。 为 了 处 
理 等 式 右 端 第 二 项 ， 我 们 首先 注意 到 微分 dx 可 以 表示 为 
dx = dx‘? dx, 
因此 ， 可 以 写 
上 px (x) log bx, (x; ) dx = i log px. aof px (x) dx” dx; (10. 40) 
其 中 右 端 内 层 积分 是 对 Gn—-DX1 向 量 xX? 积分 ， 而 外 层 积分 是 对 标量 zx; 积分 。 但 从 (10. 38) 
我 们 发 现 内 层 积 分 实际 上 等 于 边缘 概率 密度 函数 px (zx;)。 由 此 可 以 将 式 (10. 40) 重 写 为 等 价 
ÉA: 
六 六 eolog Br Cx)dx = | Bx, (zlog Px, Cx) dz == AXD, i= 1,2m 
(10. 41) 
HRPM XD) ES i Tag CARA E RA 5x (XORA. RERA. 41) 代 人 
式 (10. 39) ， 并 注意 式 (10. 39) PHEARSA AK) ,我 们 将 式 (10. 39) AHR R EAN 


Dsi, =— h(x) 十 ACK) (10. 42) 
i=l 


在 本 章 后 面 ， 我 们 将 要 利用 这 一 公式 来 学 习 独 立 分 量 分 析 。 
Pythagorean 分 解 
下 面 我 们 考虑 概率 密度 函数 px (x) 和 pOZANAWM, HP we x SRL XM U 
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的 共同 样本 ，x, 是 x 的 第 i 个 分 量 。mX1 随机 向 量 U 是 由 独立 的 变量 组 成 ， 
pu (XxX) = TT pu: Ca; ) 
而 mX1 HEIE XA U 定义 为 
X = AU 
其 中 A ft — PIERA., x (zx;) 表示 从 px OD 导出 的 每 一 个 X 的 边缘 概率 密度 ， 则 
bx Cx) Al pu(x) 之 间 的 相对 篇 可 以 作 如 下 的 Pythagorean 分 解 : 


De = Dair ~ Uait (10. 43) 
我 们 之 所 以 称 这 个 经 典 的 关系 为 Pythagorean 分 解 ， 是 因为 它 具 有 信息 -几何 解释 (Amari， 
1985)”。 
10.6 Kia 


互信 息 ICX;Y) 提 供 了 两 个 随机 变量 X 和 YY 之 间 的 统计 独立 性 测量 。 对 这 一 依赖 的 图 解 ， 
我 们 可 以 参看 基于 式 (10. 32) 的 图 解 图 10.1。 然 而 ， 这 一 等 式 缺 少数 学 上 的 洞察 力 。 具 体 地 ， 
如 果 互 信息 TI(X;Y) 是 0， 它 告 诉 我 们 随机 变量 X 和 YY 是 统计 独立 的 。 但 是 ， 如 果 I(X;Y) 大 
于 0， 确 认 在 X 和 Y 之 间 的 统计 依存 性 ， 却 没有 提供 给 我 们 这 一 依存 的 统计 测量 。 
为 了 详细 说 明 ， 考 虑 一 对 随机 变量 ， 其 样本 值 相 应 地 记 为 x 和 >y。 感 兴趣 的 问题 是 形成 在 
X 和 YY 之 间 的 统计 依存 的 测量 ， 其 不 受 其 尺度 变换 或 变化 的 影响 。 为 了 完成 这 一 且 标 ， 我 们 
将 X 和 YY 变换 为 相应 的 两 个 新 的 随机 变量 U 和 V， 使 得 U 和 V 在 区 间 [0,1j 上 一 致 分 布 。 这 
一 变换 是 一 种 非 线性 尺度 变换 ， 可 用 累积 分 布 畏 数 Px A Py(y) 来 表示 ; 它 是 通过 设 
u = Px (x) 
和 
v= Py(y) 
来 完成 的 。 其 中 和 是 随机 变量 U 和 Y 的 相应 的 样本 值 。(U,Y) BR A oP A ee SE 
位 正方 形 [0,1] X[0,1] 上 分 布 ， 当 且 仅 当 原 始 随机 变量 X 和 Y( 或 者 ， 等 价 于 新 的 随机 变量 U 
和 V) 是 统计 独立 时 这 个 分 布 是 一 致 的 。X 和 YY 的 联合 分 布 因此 转换 为 U 和 YY 在 单位 正方 形 上 
的 联合 分 布 ， 这 里 边缘 分 布 是 一 致 的 。 
新 的 随机 变量 对 (U,V) 是 唯一 决定 的 ， 它 被 称 为 系 词 (copula) 。 正 式 地 ， 
系 词 是 在 自由 分 布 方式 下 模型 化 吕 和 交 之 间 统 计 依 存 的 函数 ， 包 含 随机 变量 对 (MY )。 
我 们 可 以 继续 说 明 关 于 系 词 的 Sklar 定理 如 下 (Sklar, 1959); 
给 定 累 积分 布 函数 Pyy(z,y)，Px(z) 和 Py(Cy)， 存 在 唯一 的 系 词 Cuv(u,v) 满 足下 面 的 关 
A: 
Pyy(rsy) = Cuv (Px(7x),Py(Yy)) (10. 44) 
和 
Cuv (u,v) = P(Px (x), Pr (y)) (10. 45) 
其 中 两 个 新 的 随机 变量 口 和 有 是 原始 随机 变量 怀 和 和 对 应 的 非 线性 变换 ， 其 样本 2 和 mm 定 
MLA 
u = Px (x) (10. 46) 
和 
v = PyCy) (10. 47. 
随机 变量 对 (U,V) 的 联合 分 布 在 单位 正方 形 上 分 布 。 
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系 词 的 性 质 


性 质 1. 系 词 的 有 限 值 
由 于 样本 wx 和 w 局 限于 范围 [0,1]」， 系 词 值 自身 就 局 限于 
Cuv lu,0) = Cu,v (0 ,vw) = 0 Cvu.v Cue 1) = U Cu,v (1 ,v) VU 
Mii 2. 利用 系 词 表 示 联 合 密 度 px,y (7,y) 
用 系 词 来 将 联合 概率 密度 函数 pxyl T, y) 表 示 为 三 项 的 积 : 
。 边缘 概率 密度 函数 px (x) Al pry). 
。 Ala MER FE PRL curv (u,v)。 
为 了 建立 这 一 关系 ， 我 们 从 联合 概率 密度 因数 的 基本 定义 开始 : 


_ 2 
pxy(z:y) = Saray Sy? 








pxv(ar y= =$ F = 一 CCR PYG) 
of oPy Cy) O oo 
=2| = pC (Px(x) PO | = 3 = [py(y) Cov PxC) ,0)] 
其 中 ， 在 最 后 一 行 ， 利 用 定义 Py Cy) =v, Cu, v CPx (Xx), Py(y)) aes Py(y) 的 微分 。 边 


A PCPA z M, RIMES 


Px. yT, y= pr (y) = Cs, vCP, Cx), v) = == py Cy) anne O 


BP x Cy Cu (Px (x) sU) 








= ee v(Px(x),v) 
这 里 Coy(Pxlr), za 表示 导数 C v (Px Cx), v) 对 Py (WR. mis, 认识 到 | Py(xr)= u, 
通过 定义 ， 系 词 的 联合 概率 密度 函数 表示 为 


2 
Cuy usu) = Cuwv (uso) (10. 48) 
我 们 获得 下 面 的 关系 : 
pxry (rey) = px Cx) py(y)cuv (u,v) (10. 49) 


式 (10.49) 引 导 我 们 给 出 如 下 的 说 明 : 
如 果 两 个 随机 变量 和 和 Y 是 统计 依存 的 ， 则 系 词 的 联合 密度 cuy(x,o) 清 晰 地 说 明了 X 和 
Y 之 间 的 统计 依存 。 
例 4 两 个 统计 独立 随机 变量 的 系 词 
令 随 机 变量 X 和 YY 为 统计 独立 的 。 我 们 就 有 
Pxy (Ley) = px (x) py Cy) 


在 这 一 条 件 下 ， 式 (10. 49) se oa A 
cuv (u,v) = ie 当 UES uU] 


相应 地 有 
ee [Pew nde = | dudo = 


因此 ， 当 相应 的 随机 变量 X ALY 是 统计 独立 的 时 候 ， 系 词 的 密度 Coy (u,v) 二 wv 将 U 和 V 连 
接 起 来 。 = 
Fia BALA i K KAR 

有 了 刚刚 介绍 过 的 系 词 的 背景 ， 我 们 现在 可 以 给 出 另 一 个 说 明 ， 
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两 个 随机 变量 久 和 Y 之 间 的 互信 息 是 相应 的 非 线 性 变换 随 机 变量 对 口 和 VW 的 系 词 联 合 炉 
的 相反 数 。 

1. 由 于 随机 变量 志和 YY 是 作用 于 原始 随机 变量 和 和 Y 上 的 可 道 变换 ， 根据 第 10. 4 节 讲 
述 的 互信 息 的 不 变性 立即 可 得 

I(X;Y) = I(U;V) 
2. 将 式 (10. 32) 的 最 后 一 行 作 用 到 互信 息 I(U; V) 上 有 
I(U;V) = he CU) +he(V) — he (U,V) 

由 于 随机 变量 U 和 V 都 在 区 间 10.1) E-a t, ARORA A AVY BO. AK, 
KU:VV mA 


I(U;V) =— he (U,V) = ELlogey.y (u,v)] (10. 50) 
这 是 所 需要 的 关系 。 
在 式 (10. 50) 中 定义 的 互信 息 直观 上 比 式 (10. 32) 中 给 出 的 三 个 标准 公式 更 让 人 满意 ， 这 是 
因为 以 下 两 种 原因 : 


1. 给 定 一 对 随机 变量 ， 它 们 之 间 的 互信 息 直 接 表 示 为 系 词 的 图 数 ， 面 系 词 是 和 两 个 随机 
变量 之 加 依存 性 相 匹 配 的 法 在 分 布 的 部 分 。 
2. 互信 息 不 是 两 个 随机 变量 边缘 分 布 的 函数 。 
此 外 ， 根 据 式 (10. 49) ， 可 以 有 两 个 更 加 深刻 的 备注 : 
ICX;Y) 二 0 对 应 于 cuy(uw,v) 二 1 
I(X;Y) > 0 WM cy yluev) > 1 


10.7 BRIAR A H tr hs 


现在 我 们 对 香农 的 信息 论 已 经 有 了 足够 的 了 解 ， 可 以 讨论 它 在 研究 自 组 织 系统 中 的 作用 。 
为 了 进行 讨论 ， 设 有 一 个 多 输入 /多 输出 的 神经 网 络 系统 。 在 这 里 主要 目标 是 为 一 个 特定 
任务 〈 例 如 ， 建 模 、 抽 取 统 计 突 出 特征 或 信号 分 离 ) 而 设计 的 系统 进行 自 组 织 。 通 过 选择 某 些 
系统 变量 间 的 互信 息 作为 优化 的 目标 函数 ， 这 个 要 求 可 以 满足 。 这 种 特定 的 选择 由 下 面 两 个 考 
虑 得 到 证 明 : 
1. 如 同 第 10.4 节 到 第 10. 6 节 的 讨论 ， 互 信息 具有 一 些 独特 的 性 质 。 
2 无 需 教师 也 可 确定 互信 息 ， 这 样 自 然 就 完成 了 自 组 织 的 准备 。 
问题 变 成 了 系统 调整 自由 参数 之 一 〈 即 突 触 权 值 ) 以 优化 互信 息 的 问题 。 
根据 感 兴趣 的 应 用 的 不 同 ， 我 们 能 够 确定 如 图 10. 2 所 示 的 4 种 不 同情 况 。 这 些 情况 可 以 
。 在 图 10. 2a 描绘 的 情况 1， 输入 向 量 X 由 分 量 X; ,X;,…,X, 组 成 ， 输 出 向 量 Y 由 分 量 
Yi,Y;,…,Y 组 成 。 需 求 是 最 大 化 传送 到 系统 输出 Y 的 关于 系统 输入 六 的 信息 〈 即 通 
过 系统 的 信息 流 )。 
。 在 图 10. 2b 描绘 的 情况 2， 一 对 输入 向 量 XX, 和 X 是 从 相 邻 但 不 重合 的 图 像 区 域 截取 而 
来 。 各 自 产生 的 标量 输出 分 别 是 Y,。 和 Y;。 需 求 是 最 大 化 传送 到 Y, 的 关于 Ys 的 信息 ， 
以 及 相反 的 需求 。 
。 在 图 10. 2c 描绘 的 情况 3， 输 入 向 量 X AX, 是 从 两 幅 不 同 但 相关 的 图 像 相应 部 分 截取 
而 来 。 各 自 产 生 的 输出 分 别 是 Y。 和 Y,， 需 求 是 最 小 化 传送 到 Y, WKY, 的 信息 ， 
以 及 相反 的 需求 。 
。 在 图 10. 2d 描绘 的 情况 4， 输 入 向 量 X 和 输出 向 量 Y 与 图 10. 2a 定义 的 形式 相似 ， 但 有 相 
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AAS AER CE /二 =m) 。 这 里 的 目标 是 使 输出 向 量 Y 的 各 分 量 之 间 的 统计 相关 最 小 化 。 
在 所 有 的 这 4 种 情况 下 ， 互 信息 起 核心 作用 。 但 是 ， 它 的 推导 过 程 还 是 要 根据 所 考虑 的 具 
体 情况 而 定 。 在 本 革 余 下 的 部 分 将 以 刚才 罗列 的 顺序 讨论 涉及 这 些 情况 的 问题 以 及 它们 的 实际 
含义 。 更 重要 的 是 ， 必 须 指出 情况 4 包含 了 本 章 中 讲述 的 理论 、 计 算 算法 、 应 用 的 多 个 素材 ， 
这 反映 了 信息 论 模 型 的 实践 关系 。 













pp OnE; 
最 大 化 传送 到 Y x, OY 
的 关于 X 的 信息 最 大 化 传送 到 六 
本 $ 的 关于 的 信 
! mad 息 > 或 相反 
输出 二 
: Y | 。 一 
Y, Cozi 
b) 
Xa 
Xs OY, 
z 最 小 化 传送 到 六 
的 关于 的 : 本 
Any KA, aA hz ot 
An B X O Y, 最 小 化 Y 
oy, 之 闻 的 统 
计 相 关 
Kim Xx, A 
c) d) 





图 10. 2 ”适用 于 信息 最 大 化 的 应 用 及 其 三 个 变 体 的 四 种 基本 情况 


10.8 最 大 互信 息 原 则 


设计 一 个 神经 处 理 器 ， 使 互信 息 1(Y;X) 最 大 的 思想 是 吸引 人 的 ， 这 一 思想 是 统计 信号 处 
理 的 基础 。 这 种 优化 方法 在 Linsker(1987，1988a，1989a) 提出 的 最 大 互信 息 (maximum mu- 
tual information (Infomax)) 原 则 中 得 以 体现 ， 它 可 正式 陈述 如 下 : 


从 神经 系统 的 输入 层 观 测 到 的 随机 向 量 匀 到 系统 的 输出 层 得 到 的 随机 向 量 Y 之 间 的 变换 
应 该 这 样 选择 ， 这 种 变换 使 得 输出 层 神经 元 的 活动 共同 最 大 化 关于 输入 层 神经 元 的 活动 的 信 
B, KAKAWEN ARAKA AE X fe Y 2M 21 MYX), 

最 大 互信 息 原 则 提供 了 一 个 解决 如 图 10. 2a PR ARE BERR E 
独立 于 实现 它 所 使 用 的 规则 ， 假 设 输出 向 量 Y 的 分 量 数 ! 小 于 输入 向 量 x 的 分 量 数 m., E, 
这 个 原则 也 可 以 看 作 信 道 容量 这 个 概念 在 神经 网 络 中 的 对 应 物 ， 信 道 容量 定义 为 通过 一 个 通信 
信道 的 信息 传输 率 的 香农 极限 。 

接 下 来 ， 我 们 给 出 两 个 涉及 有 了 噪声 的 单 神经 元 的 例子 说 明 最 大 互信 息 原 则 的 应 用 。 在 一 个 
例子 中 噪声 出 现在 输出 端 ， 而 在 另 一 个 例子 中 噪声 出 现在 输入 端 。 

BS 被 过 程 噪声 破坏 的 单 神经 元 

考虑 线性 神经 元 的 简单 情形 ， 假 设 系统 从 m 个 源 节点 接受 输入 。 令 该 神经 元 的 输出 中 出 
现 过 程 噪声 ， 可 表示 为 


Y= (Ð wX.) +N (10. 51) 
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其 中 w 为 第 i 个 突 触 权 值 ，N 为 过 程 噪声 ， 如 图 10. 3 所 示 的 模型 。 假 设 : 


X, 






输出 随机 变量 
7 


BRE 
10.3 噪声 神经 元 的 信号 流 图 


© 输出 Y 是 一 个 零 均 值 以 方差 为 oy 的 高 斯 随机 变量 。 

。 过 程 噪声 N 也 是 一 个 高 斯 随机 变量 ， 均 值 为 0， 方 差 为 oh 。 

。 ERE NN 与 输入 向 量 的 任何 一 个 分 量 都 不 相关 ， 也 即 

ELNX;] 一 0， 对 于 所 有 : 

输出 工 的 高 斯 性 可 以 用 两 种 方法 之 一 得 到 满足 。 首先 ， 输 人 XoXo Xn 全 部 是 高 斯 分 布 
的 。 再 假设 附加 的 噪声 N 也 是 高 斯 的 ， 则 了 的 高 斯 性 可 以 保证 ， 这 是 由 于 一 组 高 斯 分 布 的 随 
机 变量 的 加 权 和 仍 是 高 斯 的 。 或 者 ， 输 入 Xi ,X:，…X。 是 统计 独立 的 ， 且 在 温和 的 条 件 下 ， 
利用 概率 论 的 中 心 极 限定 理 ， 它 们 的 加 权 和 在 和 2 很 大 时 趋 近 于 高 斯 分 布 。 

为 了 进行 分 析 ， 我 们 首先 注意 到 在 式 (10. 32) 的 第 二 行 ， 神 经 元 的 输出 向 量 Y 和 输入 向 量 
X 之 间 的 互信 息 I(Y;X) 是 





I(Y;X) = h(Y) — h(Y |X) (10. 52) 
根据 式 (10.51)， 注 意 在 已 知 输 入 向 量 X 的 情况 下 ， 输 出 Y 的 概率 密度 函数 等 于 一 个 常数 加 上 
一 个 高 斯 分 布 的 随机 变量 的 概率 密度 函数 。 因 此 ， 条 件 炉 hi(Y|X) 是 由 输出 神经 元 传送 的 关于 
过 程 噪声 N 而 不 是 信号 疝 量 X 的 “信息 ”。 我 们 可 以 设置 : 
h(Y |X) = ACN) 
因此 式 (10. 52) 可 以 重新 简化 为 


(10. 53) 
应 用 式 (10. 22) FA W LE Ss A a EE Se, RTS E 
h(Y) = 5[1 + log(2n 03) ] (10. 54) 
和 
ACN) = [1+ log(2n of] (10. 55) 
经 过 简化 ， 将 式 (10. 54) 和 式 (10. 55) 代 人 式 (10. 53) 49 
TCY;X) = Floe(#) | (10. 56) 


其 中 e 依赖 于 on。 
比值 oy /on 可 看 作 信 唆 比 。 假 设 噪声 方差 on 为 固定 的 约束 条 件 ， 从 式 (10. 56) 看 出 互信 息 
T(Y;X) 是 通过 神经 元 输出 Y 的 方差 o7 的 最 大 化 而 最 大 化 的 。 因 此 可 以 这 样 说 ， 在 一 定 的 条 件 
下 ， 使 神经 元 输出 的 方差 最 大 化 也 就 是 使 神经 元 的 输出 信号 和 它 的 输入 之 间 的 互信 息 最 大 化 。 
最 后 ， 由 附加 的 过 程 噪声 破坏 的 单一 神经 元 的 处 理 基 于 最 小 化 输出 方差 ,产生 了 由 第 8 草 
讨论 过 的 Oja 规则 训练 的 PCA 神经 元 的 一 个 解 。 a 
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例 6 受 附加 输入 噪声 破坏 的 单个 神经 元 
假设 噪声 影响 在 每 一 个 输入 节点 的 罕 触 末端 的 线性 神经 元 的 行为 ， 如 图 10.4 所 示 。 根 据 
第 二 个 噪声 模型 得 出 : 


Y= X wX + N;) (10. 57) 


其 中 假设 每 个 噪声 分 量 N 是 一 个 独立 高 斯 随机 变量 ， 其 均值 为 0， 共同 方差 为 cN。 将 式 
(10. 57) 政 写成 类 似 式 (10. 51) 的 形式 : 


Y= ( > wx N 
其 中 凡是 噪声 分 量 的 组 合 ， 完 义 为 


噪声 N' 是 一 个 高 斯 分 布 ， 其 均值 为 0， 方差 为 所 有 独立 噪声 分 量 方差 的 加 权 和 ， 即 


m 
2 —_ 2 2 
ON — WON 
= 









输出 随机 变革 
输入 随机 Y 
AR r E 





t 
Na 


WR PAE Fy Be 


图 10.4 神经 元 的 另 一 个 噪声 模型 
与 前 类 似 ， 我 们 假设 神经 元 的 输出 变量 Y 是 方差 为 of 的 高 斯 分 布 。Y 和 之 间 的 互信 息 
TCY;X) 同 样 由 式 (10. 52) 给 出 。 但 是 ， 这 一 次 条 件 炉 h(Y| 针 ) 定 义 如 下 ， 





ny (X= MON = È + nok) = 21+ anak Du | (10. 58) 
这 样 ， 将 式 (10. 54) 和 式 (10. 58) 代 入 式 (10. 52) 并 简化 ， 可 得 
I(Y;X) = 3log( at ) (10. 59) 
2 | 
an >) wi 
在 约束 噪声 方差 A 保持 常量 的 条 件 下 ，I(Y;X) 的 最 大 化 就 是 比值 o/ Dj wi 的 最 大 化 ， 其 中 
ay 是 w; ty ek BX o a 


我 们 可 从 例 5 和 例 6 推出 什么 结论 ? HA. MAHHATAM PTA, WHR A 
的 结果 依赖 于 问题 。 对 于 给 定 噪声 方差 及 ， 最 大 化 互信 息 1(Y;X) 和 应 用 于 图 10. 3 的 模型 
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输出 的 方差 之 间 的 比 等 价 ， 并 不 能 直接 转 到 图 10. 4 的 模型 。 只 有 当 对 图 10.4 的 模型 加 上 
iwi =1 的 约束 时 ， 图 10.4 和 图 10. 3 所 代表 的 模型 才 有 相似 的 行为 。 

一 般 说 来 ， 确 定 输入 向 量 义 与 输出 向 量 Y 的 互信 息 ICY;X) 是 很 困难 的 。 在 例 5 和 例 6 
中 ， 为 了 数学 上 分 析 的 方便 ,我 们 假设 系统 噪声 分 布 是 一 个 或 多 个 噪声 源 的 多 元 高 斯 分 布 。 这 
个 假设 需要 在 最 大 互信 息 原 则 的 实际 应 用 中 验证 。 

当 采 用 高 斯 噪声 模型 时 ， 本 质 上 是 采用 互信 息 的 一 个 替代 ， 其 计算 的 前 提 是 神经 元 的 输出 
向 量 Y 是 一 个 均值 向 量 和 协 方差 矩阵 都 与 实际 情况 相同 的 多 元 高 斯 分 布 。 在 Linsker (1993) 
中 ， 利 用 相对 炉 提 供 对 于 这 种 条 件 下 替代 互信 息 的 一 个 原则 性 理由 ， 这 些 都 假设 网 络 已 经 存储 
关于 输出 向 量 Y 的 均值 向 量 和 协 方差 矩阵 而 不 包含 更 高 阶 统 计 。 

最 后 ， 在 例 5 和 例 6 给 出 的 分 析 情 况 只 是 对 于 一 个 神经 元 进行 的 。 有 意 这 样 做 是 为 了 最 大 互 
信息 原则 在 数学 上 易于 处 理 ， 最 优化 应 该 在 局 部 神经 元 级 进行 。 这 种 优化 符合 自 组 织 的 本 质 。 

例 7 无 噪声 网 络 

在 例 5 和 例 6 中 ， 考虑 了 带 有 噪声 的 神经 元 。 在 本 例 中 我 们 研究 一 个 无 噪声 的 网 络 ， 它 将 
任意 分 布 的 随机 向 量 X 变换 为 新 的 具有 不 同 分 布 的 随机 向 量 Y。 注 意 ICX3Y) 王 ICY;:X)， 并 且 
在 这 里 展开 式 (10. 32) 的 第 2 行 ， 可 以 将 输入 向 量 世 和 输出 向 量 Y 之 间 的 互信 息 表 达 为 : 

ICY;X) = ACY) —hCY|X) | 
Hp ACY) SEY WOH. ACYI MBAS X HALE Y WAY. BRM X BY 的 映射 是 无 品 
FAN, AAPM ACY| OMAR a RE: 它 发 散 到 一 co 。 这 是 由 于 在 10. 2 节 讨 论 的 连续 随机 
变量 箭 的 微分 特性 的 必然 结果 。 但 是 ， 当 我 们 考虑 互信 息 CO; XO 对 参数 化 映射 网 络 的 权 值 矩 
阵 W 的 梯度 时 ， 这 个 困难 并 不 造成 什么 后 果 。 具 体 地 ， 可 以 写成 
ICY;X ACY) 

aie = Wr (10. 60) 
FA REAR ACY | XD 5p OW 独立 。 式 (10. 60) 42 : 

对 于 一 个 无 骂 声 映射 网 络 ， 最 大 化 网 络 输 出 Y ORD RRETRAMY 和 网 络 输入 久之 
间 的 互信 息 ， 两 者 都 是 关于 映射 网 络 的 权 疆 阵 W 最 大 化 。 a 


10.9 最 大 互信 息 和 元 余 减 少 


在 香农 的 信息 论 框 架 中 ， 序 和 结构 代表 元 余 ， 它 减少 接受 方 对 信息 分 辨 的 不 确定 性 。 在 固 
有 过 程 中 我 们 拥有 的 序 和 结构 越 多 ， 则 观察 这 个 过 程 获得 的 信息 量 就 越 少 。 例 如 考虑 高 度 结构 
化 和 元 余 的 序列 aaaaaa。 一 旦 得 到 第 一 个 样本 a， 则 我 们 就 可 以 立即 知道 其 余 后 面 五 个 都 是 一 
样 的 a。 这 样 的 一 个 序列 所 传递 的 信息 的 极限 是 单个 符号 传递 的 信息 量 。 换 句 话 说 ， 样 本 序列 
的 元 余 越 大 ， 序 列 中 所 含 的 信息 内 容 也 就 越 少 ， 但 是 该 信息 内 容 的 结构 越 多 。 

从 互信 息 I(Y;X) 的 定义 ， 我们 知道 这 是 通过 观察 系统 输入 六 来 决定 输出 Y 的 不 确定 性 的 
度量 。 最 大 互信 息 原则 是 使 互信 息 TI(Y;X) 最 大 ， 其 结果 是 我 们 在 观测 到 输入 为 时 ， 对 系统 
输出 Y 增加 确定 性 。 考 虑 到 前 面 提 到 的 信息 与 元 余 之 间 的 关系 ， 因 此 我 们 可 以 说 : 

最 大 互信 息 原 则 时 致 与 在 输入 XX 中 的 宛 余 比较 而 言 减少 输出 Y PHC. 

品 声 的 出 现 是 推动 使 用 完 余 以 及 相 异 性 (diversity〉 相 关 方 法 的 一 个 因素 ， 相 异性 的 定义 
如 下 : 通过 一 个 处 理 器 产生 不 同性 质 的 两 个 或 多 个 输出 。 而 且 ， 当 输入 信号 的 附加 性 品 声 很 高 
时 ， 我 们 可 以 利用 宛 余 来 减少 品 声 的 效果 。 在 这 种 环境 下 ， 输 入 信和 号 之 间 的 更 多 R) 分 量 
都 由 处 理 器 组 合 起 来 ， 以 提供 输入 的 精确 表示 。 同 样 ， 当 输出 端的 噪声 〈 即 处 理 器 噪声 ) 很 高 
时 ， 给 出 更 多 的 输出 分 量 以 提供 元 余 信 息 。 在 处 理 器 和 输出 端 观测 到 的 相互 独立 的 属性 也 相应 地 
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减少 了 ， 但 各 个 属性 表示 的 精确 度 反 而 提高 了 。 因 此 ， 高 水 平 的 骂 声 有 利于 表示 的 宛 余 。 但 
是 ， 当 噪声 水 平 很 低 时 ， 表 示 的 相 异 性 比 宛 余 更 有 利 。 | 


感知 系统 建 模 


和 目 从 信息 论 的 早期 ， 瑟 提出 了 感 党 消息 CR) 的 元 余 对 感知 理解 非常 有 用 (Attneave， 
1954; Barlow，1959)。 感 觉 消 息 的 元 余 提供 了 人 脑 建立 其 周围 环境 的 “ 认 知 映射 ”或 “工作 
模型 ”。 在 感觉 消息 中 规则 必须 以 某 种 方式 被 人 脑 编 码 ， 使 它 知道 什么 经 常 发 生 。 但 是 ， 元 余 
减少 是 Barlow 假设 的 特定 形式 。 这 个 假设 说 明 : 


早期 处 理 的 目的 是 将 高 兄 余 的 感觉 输入 转化 成 更 有 效 的 析 因 码 (factorial code), 


换 名 话说， 在 输入 的 条 件 下 使 神经 元 输出 统计 独立 。 
受 Barlow 假设 的 启发 ，Atick and Redlich(1990) oe 元 余 原 Eo a 10.5 Bras 
的 感知 系统 的 信息 论 模型 的 基础 。 系 统 由 三 es eee 
个 部 分 组 成 : 输入 通道 、 重 编码 系统 和 输出 









通道 。 输 入 通道 的 输出 可 以 表示 为 : 、 sien aiii y 
X=S+4N, 

其 中 S 是 输入 通道 接收 到 的 理想 信号 ，N : 

假设 为 输入 中 所 有 了 噪声 的 源 。 随 后 信号 其 输入 通道 输出 通道 

被 线性 矩阵 算 子 A 变换 〈 重 编码 )， 然 后 通 ‘视觉 神经 ， 


10.5 感知 系 台 。 人 和信 和 号 向 量 s 声 向 量 v 和。 
过 视觉 神经 或 输出 通道 传输 ， 产 生 箱 出 Y， EO mas NAN ME 
表示 为 

Y= AX+ N, 

其 中 N, 表示 后 编码 本 身 的 品 声 。 在 Atick 和 Redlich 的 方法 中 ， 观 察 到 达 视 网 膜 的 光 信 号 包含 
一 些 非常 有 用 的 高 元 余 形 式 的 感觉 信息 。 进 一 步 假 设 在 信号 沿 视 觉 神 经 发 送 以 前 视网膜 信号 处 
理 的 目的 就 是 减少 或 消除 由 于 关联 性 和 噪声 所 带 来 的 数据 元 余 。 为 了 量化 描述 这 种 观点 ， 元 余 
度 度量 定义 如 下 : 





(10. 61) 


其 中 I(Y;S) 是 Y 和 S$ 之 间 的 互信 息 ，C(Y) 是 视觉 神经 (输出 通道 ) 的 信道 容量 。 式 (10. 61) 
的 合理 性 基于 人 脑 感 兴趣 的 信息 是 理想 的 输入 信号 S$,， 但 是 信息 必须 经 过 的 物理 信道 实际 上 是 
视觉 神经 。 假 设 在 感知 系统 完成 的 输入 与 输出 映射 之 间 没 有 维 数 减 少 ， 这 意味 者 CCY) > ICY; 
S) 。 要 求 找到 一 个 输入 -输出 映射 〈 即 矩阵 A) 使 元 余 度 度 量 R 达到 最 小 且 满 足 不 丢失 信息 的 约 
束 ， 可 以 表示 为 
ICY;X) = I(X;X)—&€ 

其 中 e 是 一 些 很 小 的 正 参数 。 式 (10. 61) 中 信道 容量 C(Y) 定 义 为 保持 平均 输入 能 量 固定 的 条 件 
下 对 所 有 应 用 于 它 的 输入 的 概率 分 布 ， 可 能 流 过 视觉 神经 的 最 大 信息 率 。 

当 信 和 号 向 量 S 和 输出 向 量 Y 有 相同 的 维 数 和 系统 存在 噪声 时 ， 最 小 宛 余 度 原则 和 最 大 互信 
息 原 则 数学 上 是 等 价 的 ， 只 要 假设 在 两 种 情况 下 输出 神经 元 计算 能 力 的 约束 相同 。 具 体 地 ， 假 
设 根据 图 10. 5 的 模型 中 信道 容量 的 度量 取决 于 每 一 个 神经 元 输出 的 动态 范围 。 那 么 ， 根 据 最 
小 元 余 度 原则 ， 对 于 一 个 给 定 的 允许 信息 丢失 ， 以 及 从 而 对 于 一 个 给 定 的 I(Y;S)， 需要 最 小 
化 的 量 定义 为 : 


ICY;S) 


1 “Ey 
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因此 ， 对 于 参数 人 ， 这 样 最 小 化 的 量 本 质 上 为 
F,(Y¥;S) = C(Y) 一 MTCY;S) (10. 62) 


另 一 方面 ， 根 据 最 大 互信 息 原 则 ， 在 图 10.5 的 模型 中 需要 最 大 化 的 量 为 : 
F,(Y;S) = I(Y;S) +ACCyY) (10. 63) 


Fa SAR PRP CY SAF, CY; S96 RA, BET OR er EA ZR: 它们 都 是 拉 格 朗 
ARF AK, MME ICY;S) A CORRES AE. 

从 这 些 讨 论 中 注意 到 这 样 一 个 重要 的 观点 : 虽然 公式 不 同 ， 但 是 这 两 个 信息 论 的 原则 产生 
相似 的 结果 ”: 

一 个 神经 系统 输出 和 输入 之 间 的 互信 息 的 最 大 化 确实 可 以 导致 宛 余 前 减 。 


10.10 ”空间 相干 特征 


在 10.8 节 中 提出 的 最 大 互信 息 原 则 ， 主 要 应 用 于 如 图 10. 2a 所 示 的 情况 下 ， 神 经 系统 的 
输出 向 量 Y 和 输入 向 量 X 之 间 的 互信 息 I(Y;XX) 作 为 一 个 求 最 大 值 的 和 且 标 函数 。 在 术语 上 作 适 
当 改 变 ， 我 们 可 以 将 其 扩展 到 自然 景物 图 像 的 无 监督 处 理 中 (Becker and Hinton, 1992), — 
个 未 处 理 的 图 像 的 像素 ， 虽 然 形 式 很 复杂 ， 但 是 包含 我 们 感 兴趣 的 景物 的 丰富 信息 。 特 别 是 ， 
每 个 像素 的 密集 度 受 内 在 参数 的 影响 ， 例 如 深度 、 反 射 、 表 面 方向 和 背景 噪声 以 及 照明 度 。 日 
的 就 是 设计 一 个 自 组 织 系 统 ， 能 够 学 习 将 这 种 复杂 的 信息 编码 成 一 种 简单 的 形式 。 更 具体 一 
点 ,目标 就 是 从 这 个 图 像 中 提取 能 够 展现 该 图 像 空间 相干 的 高 阶 特征 ， 使 得 在 图 像 的 空间 局 部 
区 域 的 信息 表示 很 容易 产生 邻近 区 域 的 信息 表示 ; 区 域 是 指 图 像 中 的 一 组 像素 的 集合 。 这 里 描 
述 的 情况 属于 图 10. 2b 的 场景 。 

因此 我 们 可 以 将 Imax 原则 的 情况 2 说 明 如 下 (Becker, 1996; Becker and Hinton, 1992): 


HAHEN 和 台 ( 代 表 一 个 神经 系统 相 邻 的 无 重 登 的 图 像 区 域 ) 的 变换 应 该 如 此 选择 ， 使 得 输 
AX, 对 应 的 标量 输出 Y, 最 大 化 输入 X 对 应 的 标量 输出 Y, 的 信息 ， 反 之 亦 然 。 最 大 化 的 目标 函数 
就 是 输出 Y, fo Y, 之 间 的 互信 息 ICY, ;Y,)。 

尽管 Imax 原则 并 不 和 最 大 互信 息 原则 相等 价 或 能 够 从 其 推导 出 来 ， 但 它 必 定 按 相似 的 思 
想起 作用 。 

例 8 相干 图 像 处 理 

考虑 图 10.6 所 示 的 例子 ， 有 两 个 神经 网 络 (模型 ) a Mb, 分 别 接受 输入 为 Xa AX, HK 
自 同一 图 像 中 相 邻 的 不 重 符 区域， 各 自 的 标量 输出 分 别 是 Y, M Y. S SER Y, MY, 中 共同 
言 号 分 量 ， 它 是 原始 图 像 的 两 个 相关 区 域 的 空间 相 于 性 的 表示 。 我 们 可 以 将 Y。 和 Y, 看 成 共同 
信号 S 的 带 噪 声 形式 ， 表 示 为 : 





全 人， 
和 
Y, = S+N, 
N, AUN, 是 加 性 噪声 分 量 ， 假 设 为 统计 独立 的 零 均 值 高 斯 分 布 随机 变量 。 信 和 号 分 量 S 也 假设 
为 高 斯 分 布 的 。 根 据 这 两 个 式 子 ， 在 图 10.6 中 假设 模块 a 和 2 彼此 相 容 。 
利用 式 (10. 32) 的 最 后 一 行 ，Y。 和 Y， 的 互信 息 定义 为 : 


ICY. :Y,) Sh FhCY,) Shay (10. 64) 
HERC. 22) st, KF RMP RHR. Ye MATR hY.) 为 ， 
h(Y,) = S [1+ log(2xo?)] (10. 65) 
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最 大 化 互信 息 
1 (YY,) 





图 10.6 按照 Imax 原则 处 理 图 像 的 两 个 邻近 区 域 
其 中 ot 是 的 方差 。 同 理 得 Y, WD: 
ACY,) = [1 log(2nof)] (10. 66) 
其 中 o Æ Y, 的 方差 。 至 于 联合 微分 粹 CY。,Y,)， 利 用 式 (10.24) 得 
h(Ya Y3) = 1 十 log(2x) + -7log | det (£) | 


2X2 WER EEY, AY. WEE. EMH: 
-| os | (10. 67) 


和 
det(X) = oie; (1 — pa ) 
其 中 ow 是 Y。 和 YY, 的 相关 系数 ; 也 就 是 
_ ELOY. —ELY, DM, —ELY, DJ 
= Tab 


所 以 可 以 重 写 Y。 MY, RSA : 


Ai 了) = 1+log(2n) + log[Loio (1 — of] (10. 68) 

将 式 (10. 65)、 式 (10. 66) 和 式 (10. 68) 代 入 式 (10. 64)， 并 简化 得 
Y.Y) =— Slog — pis) (10. 69) 
由 式 (10. 69) 立 即 推出 ， 最 大 化 互信 息 1C(Y。;Y,) 等 价 于 最 大 化 相关 系数 os 。 这 从 直观 上 看 也 是 
满足 的 。 注 意 ， 由 ps 的 定义 知 ，| pw | 委 1。 加 


式 (10. 69) 的 结果 是 由 图 10. 6 的 随机 系统 的 输出 产生 的 两 个 随机 变量 Y. 和 YY 的 例子 推导 

的 ， 这 两 者 都 被 假设 为 高 斯 分 布 。 然 而 ， 在 更 一 般 的 非 高 斯 分 布 情形 下 ， 相 关系 数 ou 的 利用 

不 能 作为 Imax 原则 的 合适 测量 。 为 了 一 般 化 Imax 的 运用 ， 我 们 提出 由 式 (10. 50) 的 公式 启发 

的 系 词 的 运用 。 具 体 地 ， 考 虑 图 10. 2b 的 情形 。 令 W 为 响应 于 产生 输出 Y, 和 YY 的 系统 的 权 

HM, MY. AY, 分 别 啊 应 于 对 应 的 输入 向 量 X。 AX, 的 组 合影 响 。 然 后 利用 式 (10. 50) 的 
第 一 行 来 形成 Imax 原则 的 简化 : 

maxl(Y, ;Y,) = minhe (U, Us; W) (10. 70) 


其 中 ， 根 据 相 关 的 累积 概率 分 布 ， 得 出 : 
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ta = Py.Cy,) 
和 
us = Pys Cy») 
H he(U. Us W) 是 随机 变量 U。 和 Us 的 联合 微分 焙 ， 其 对 应 的 样本 值 是 zx Mus SH. W 
据 式 (10. 50) 的 第 二 行 ， 也 可 以 写成 ， 
maxI(Y, ;Y,) = max ELlogeu w, (ta stuts W) | (10. 71) 
其 中 CU U, (zx ,us;W) 是 随机 变量 .和 [的 系 词 的 联合 概率 密度 函数 。 式 (10. 71) 的 公式 包含 
了 式 (10. 69) 的 结果 作为 一 个 特例 ; 这 一 公式 的 重要 性 将 在 本 章 后 面 讲述 。 
Imax 和 标准 相关 分 析 之 间 的 关系 
再 次 考虑 两 个 输入 向 量 X 和 X,， 他 们 不 必 有 相同 的 维 数 。 相 应 的 有 两 个 权 ( 基 ) 向 量 w。 
和 w， 他 们 和 对 应 的 X 和 XX, 具有 相同 的 维 数 。 统 计 中 常用 的 标准 相关 分 析 (canonical corre- 
lation analysis (CCA)) 的 目的 就 是 指 找 到 两 个 线性 组 合 
Y, = wix, 
和 
Y, = wi X, 
使 它们 之 间 的 关联 性 最 大 。 将 这 里 的 问题 和 Imax 相 比 较 ， 我 们 可 以 看 到 实际 上 Imax 是 CCA 
的 非 线性 副本 。 对 于 更 详细 的 CCA 的 说 明 ， 读 者 可 以 参考 注释 和 参考 中 的 注释 8。 


10. 11 空间 非 相 干 特征 


在 前 面 一 节 里 我 们 讨论 了 一 个 无 监督 的 图 像 处理 过 程 ， 它 从 一 个 图 像 中 提取 空间 相干 特 
征 。 现 在 我 们 将 讨论 与 那里 相反 的 问题 。 具 体 地 说 ， 考 虑 图 10.2c， 其 中 目的 是 增强 从 两 个 不 
同 图 像 中 抽取 相应 区 域 的 空间 差异 。 在 图 10. 2b 中 ， 我 们 是 求 模 块 输出 间 的 互信 息 最 大 化 ， 在 
图 10. 2c 中 我 们 做 相反 的 工作 。 

因此 我 们 可 以 将 情况 3 的 Imin 原则 ”陈述 如 下 (Ukrainec and Haykin, 1992, 1996); 


从 两 幅 不 同 图 像 对 应 的 区 域 得 到 的 数据 作为 两 个 输入 向 量 匀 和 XX,， 神 经 系统 对 它们 的 变 
换 的 选择 应 该 使 得 输入 X, 对 应 的 系统 标量 输出 了, 关于 输入 X， 对 应 的 系统 标量 输出 Yi 信息 最 
小 反之 亦 然 。 最 小 化 的 月 标 函 数 是 输出 I 和 Y; 之 间 的 互信 息 ICY, sY,). 


案例 研究 : 雷达 偏振 测定 

例如 ，Imin 原则 可 以 在 雷达 偏振 测定 (radar polarimetry) 方面 有 所 应 用 。 雷 达 监 视 系 统 
产生 一 对 我 们 感 兴趣 的 环境 的 图 像 ， 利 用 在 一 个 偏振 方向 上 传送 ， 在 相同 或 不 同 偏振 方 回 接收 
得 到 反 向 散射 。 偏 振 可 以 在 垂直 方向 ， 也 可 以 在 水 平方 向 上 上。 例如， 我 们 可 能 有 两 幅 雷 达 图 
像 ， 一 幅 图 像 代 表 相 同方 向 〈 水 平 -水 平 ) 的 偏振 ， 而 另 一 幅 为 交叉 方向 〈 水 平 发 送 -垂直 接 
受 ) 的 偏振 。 这 样 的 应 用 由 Ukrainec and Haykin(1992，1996) 提出 ， 属 于 在 一 个 双 偏 振 雷 达 
系统 中 的 偏振 目标 增强 。 研 究 中 雷达 景物 的 采样 描述 如 下 。 在 一 个 非 相 干 雷达 以 水 平 偏振 方式 
传播 ， 在 垂直 和 水 平 偏振 频道 接收 雷达 返回 。 感 兴趣 的 目标 就 是 设计 一 个 协 件 偏 振 捏 曲 反 射 器 
来 将 偶然 偏振 旋转 90 度 。 在 普通 的 雷达 系统 操作 中 ， 这 样 一 个 目标 的 探测 是 非常 困难 的 ， 既 
因为 雷达 系统 的 缺陷 也 因为 地 面目 标 会 发 生意 想不到 的 偏振 ， 并 反射 回来 产生 杂 波 〈clutter) 。 
我 们 发 现 需 要 用 一 个 非 线 性 映射 来 解释 普通 雷达 返回 结果 的 非 高 斯 分 布 。 目 标 增强 问题 变 为 涉 
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及 约束 二 次 函数 最 小 化 的 求解 问题 。 最 终结 果 是 一 个 处 理 后 的 交叉 偏振 图 像 ， 它 在 目标 可 见 度 
方面 表现 出 极 大 的 提高 ， 而 且 远 比 我 们 应 用 诸如 主 分 量 分 析 之 类 的 线性 技术 得 到 的 效果 要 好 得 
多 。 因 为 模型 无 关 的 概率 密度 蚂 数 估计 是 一 个 计算 量 非常 大 的 工作 ， 所 以 Ukraire 和 Haykin 
提出 的 模型 对 变换 后 的 数据 假设 是 高 斯 统计 分 布 的 。 两 个 高 斯 变量 了 AY, 的 互信 息 由 式 
(10. 69) 定 义 。 为 了 学 习 两 个 模型 的 突 触 权 值 ， 采 用 了 变通 的 方法 。 要 求 是 抑制 雷达 杂 波 ， 对 
水 平 偏振 和 垂直 偏振 的 雷达 图 像 这 是 常见 的 。 为 了 满足 该 要 求 ， 最 小 化 互信 息 TI(Y.jYs)， 满 
足下 面 加 在 权 值 向 量 上 的 约束 条 件 : 
C= (trLW’W]—1)° 
其 中 W EMA RE. trl j 是 括号 内 和 矩阵 的 迹 。 如 末 
Val 23 ¥,) AVC=0 (10. 72) 

成 立 ， 我 们 可 以 得 到 一 个 稳定 点 ， 其 中 和 是 拉 格 朗 日 乘 子 。 利 用 拟 牛 顿 最 优化 程序 寻找 最 小 
值 。 在 第 3 章 和 第 4 章 中 讨论 过 拟 牛 顿 方法 。 

图 10.7 显示 Ukrairec and Haykin(1992, 1996) 所 用 的 神经 网 络 结构 。 对 每 个 模型 选择 一 个 
高 斯 径 向 基 函 数 网 络 (RBF) ， 这 是 因为 它 可 以 提供 一 系列 的 固定 基 函 数 的 好 处 〈 即 有 一 个 非 目 
适应 隐藏 层 )。 输 入 数据 在 基 薄 数 上 展开 ， 然 后 通过 线性 权 值 层 相 结 合 ; 在 图 10.7 中 的 虚线 代表 
两 个 模块 间 的 交叉 耦合 连接 。 高 斯 函数 的 中 心 在 区 间 内 均匀 选择 以 便 能 完整 覆盖 全 部 输入 区 域 ， 
它们 的 宽度 选择 应 用 启发 式 规则 。 图 10. 8a 显示 一 个 在 安大略 湖岸 边 的 一 个 公园 的 水 平 极 化 和 垂 
直 极 化 的 雷达 图 像 。 每 一 幅 图 像 的 范围 坐标 是 沿 水 平 轴 的 ， 从 左 到 右 递 增 ; 方位 角 坐 标 沿 垂直 
轴 。 图 10. 8b 显示 采用 最 小 化 水 平 极 化 和 垂直 极 化 的 雷达 图 像 的 互信 息 的 组 合 图 像 。 一 个 非常 清 
晰 的 亮点 在 图 像 中 可 以 看 出 来 ， 它 是 根据 雷达 从 放 在 湖 边 的 一 个 协作 偏振 扭曲 反射 右 返 回 的 。 这 
里 所 讨论 的 例子 说 明了 将 Imin 原则 应 用 于 处 理 空间 非 相 干 图 像 的 实际 好 处 ”。 







类 偏振 (水 平一 一 水 平 ， 
雷达 输入 


N y pi 最 小 化 互信 息 
A I (YY,) 


X, pO 


交叉 偏振 水 平一 一 垂直 ) 
雷达 输入 


高 斯 径 向 基 肯 数 


图 10.7 神经 处 理 器 框图 ， 其 目标 是 利用 一 对 偏振 测定 的 非 相 于 雷达 输入 抑制 背 
景 杂 波 ， 杂 波 抑制 由 最 小 化 两 个 模型 输出 的 互信 息 来 达到 
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a) 未 处 理 的 8- 扫 撒 雷 达 图 像 〈 方 位 角 和 范围 对 比 ) ， 水 平 -水 平 偏振 O 和 水 平 -垂直 CE) 偏振 


一 反射 器 





b) 最 小 化 a 部 分 的 两 幅 偏振 雷达 图 像 之 间 的 互信 息 ， 计 算得 出 的 合成 图 像 
图 10.8 Imin 原则 应 用 于 雷达 偏振 


Imax 和 Imin 原则 的 推广 

在 10. 10 节 中 构成 Imax 原则 以 及 本 节 中 构成 Imin 原则 中 ， 我 们 论述 了 对 于 一 对 输出 终端 的 
互信 息 KYY) 进行 最 大 化 或 者 最 小 化 。Imax 和 Imin 原则 都 可 以 被 推广 到 多 个 终端 的 情形 ， 其 
输出 为 Y, ,Ys ,Y.,…， 相应 地 通过 最 大 化 或 者 最 小 化 多 元 互信 息 TCY, :到 ;7 ;…) 来 做 。 


10.12 独立 分 量 分 析 


现在 我 们 将 注意 力 集中 在 由 图 10. 2d 描述 的 最 后 一 种 情况 。 为 了 使 那里 陈述 的 信号 处 理 问 
题 更 加 具体 化 ， 考 虑 图 10. 9 的 方 杠 图。 操作 从 一 个 随机 源 向 量 S 开始 ， 其 定义 为 
S = [Ss o rt Ei ale 
BS AY m PS BEL Ee EAR Et IC si soos, 。 随 机 源 向 量 $ 被 作用 于 一 个 混合 器 
(mixer)， 其 答 和 输出 之 间 的 关系 由 一 个 非 奇 蜡 的 双色 z 的 称 为 混合 矩阵 的 A 决 定 。 由 源 向 量 
S 构成 的 线性 系统 和 混合 器 A 对 于 观测 者 是 完全 未 知 的 。 系 统 的 输出 由 如 下 的 随机 向 量 定义 ， 


X 一 AS 一 》aS， (10. 73) 


其 中 a 是 混合 矩阵 A 的 第 i 个 列 向 量 ，S; 是 由 第 i 个 源 产 生 的 随机 信号 ,i = 1,2,…,m。 随 机 
向 量 相应 地 记 为 
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X = [X, Xp fe Aa 
X; 的 样本 值 记 为 zi RP 7 = 1,2, 5m, 

AAO. 73) 所 述 的 模型 称 为 生成 模型 (generative model) ， 是 在 其 负责 生成 随机 变量 Xi， 
XX，，,… Xna 的 意义 上 而 言 的 。 相 应 地 ， 组 成 源 向 量 S 的 随机 变量 S ,S; ,…,S, 被 称 为 潜在 变量 ， 
意思 是 他 们 不 能 被 直接 观察 。 

育 源 分 离 问题 " 

图 10. 9 的 方 框图 包含 一 个 分 离 器 ， 由 mxm IREE W 来 表示 。 响 应 于 观测 向 量 X， 分 

离 器 产生 一 个 由 下 面 的 随机 向 量 定 义 的 e A 


| 
输出 : | el 
分 离 器 输出 向 量 
W y 
ve 





Y = Wx 
根据 此 我 们 现在 可 以 给 出 如 下 声明 : 
绘 定 由 潜在 (R) 变量 S, S, Sn 未 知 环境 
的 未 知 线性 混合 所 得 到 的 观测 向 量 名 的 独 图 10.9 用 于 解 盲 源 分 离 问 题 的 处 理 器 方 框图 。 向 量 s， 
RREA, it > BIER W 使 得 得 到 的 x 和 y 是 相应 的 随机 向 量 $S，X 和 六 的 值 


输出 向 量 Y 的 分 量 尽 可 能 地 统计 独立 ; 这里， 术语“ 独立 ”应 该 被 理解 为 其 强烈 的 统计 意义 。 


这 一 声明 说 明了 育 源 分 离 问题 的 本 质 。 这 个 问题 称 为 育 的 是 为 了 强调 这 样 的 事实 : 对 于 分 
离 矩 阵 W 的 估计 是 在 非 监 督 方式 下 进行 的 。 而 且 ， 用 于 恢复 原始 源 信息 S 的 仅 有 信息 是 包含 
在 观测 向 量 X 中 的 。 这 种 包含 于 解 育 源 分 离 (BSS) 问题 中 的 内 在 原则 被 称 为 独立 分 量 分 析 
(Comon，1994)。 独 立 分 量 分 析 CICA) 可 看 作 主 分 量 分 析 (PCA) 的 延伸 ， 他 们 有 如 下 基本 
上 的 不 同 ，PCA 仅仅 强制 到 至 多 为 二 阶 独 立 的 ， 而 且 向 量 的 方 回 限制 为 正 交 的 ， 而 ICA 对 于 
输出 向 量 Y 的 所 有 单个 分 量 限 制 为 统计 独立 ， 并 且 没 有 正 交 性 的 限制 。 


基本 假设 


为 了 简化 主 分 量 分 析 的 研究 ， 我 们 做 下 面 的 四 个 基本 假设 : 

1. 统计 独立 性 。 构 成 源 向 量 S 的 潜在 变量 假设 为 统计 独立 的 。 然 而 ， 注 意 由 于 观测 向 量 XX 
是 由 潜在 变量 的 线性 组 合 组 成 的 ， 因 此 观测 向 量 X 的 各 个 分 量 是 统计 相关 的 。 

2. 混合 矩阵 的 维 数 。 混 合 卸 阵 是 方 阵 ， 这 意味 着 观测 数 和 源 数 相 同 。 

3. 无 品 模 型。 假设 生成 模型 为 无 噪 的 ， 这 意味 着 在 模型 中 仅 有 的 随机 源 是 源 向 量 S。 

4. 零 均 值 。 假 设 源 向 量 S 具有 0 均值 ， 这 意味 着 观测 向 量 六 也 具有 0 均值 。 如 采 不 是 ， 
WA X 中 减 去 均值 向 量 ELXj] 以 使 得 其 假设 为 0 均值 。 

有 时 候 另 一 个 假设 也 是 需要 的 : 

5. 和 白 唆 化 。 假 设 观测 向 量 X 被 “ 白 品 化 ”。 这 意味 着 其 各 个 分 量 是 不 相关 的 ， 但 不 是 必须 独立 
的 。 白 品 化 是 通过 对 观测 向 量 的 线性 变换 使 得 相关 和 矩阵 ELXX” 等 于 单位 矩阵 来 完成 的 。 

认识 到 解 BSS 问题 除了 对 于 每 个 源 输出 〈 即 潜在 变量 ) 的 估计 的 任意 拉 伸 和 置换 之 外 是 
可 行 的 这 一 点 也 是 重要 的 。 为 了 详细 说 明 ， 可 能 找到 一 个 分 离 矩阵 W， 其 各 行 是 混合 矩阵 A 
的 重新 拉 伸 和 置换 。 换 句 话 说， 通过 ICA 算法 得 到 的 BSS 问题 的 解 可 以 表示 为 下 面 的 形式 : 

y = Wx = WAs = DPs 

其 中 D 是 一 个 非 奇 异 对 角 和 矩阵 ，P 是 置换 矩阵 ; s、x 和 y 是 相应 的 随机 向 量 S、X 和 YY 的 实现 。 
源 的 非 高 斯 性 : 可 能 除了 一 个 源 外 ， 这 对 ICA 是 必然 要 求 。 

HT ICA 算法 能 够 尽 可 能 地 在 分 离 器 输出 端 分 离 给 定 的 源 信号 集合 ， 需 要 对 于 由 生成 模 
型 的 输出 产生 的 观测 向 量 XX 的 充分 信息 。 这 一 关键 问题 如 下 所 述 : 
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观测 向 量 导 中 的 信息 内 容 是 如 何 证 明 其 对 于 分 离 源 信号 是 可 行 的 ? 


我 们 将 通过 一 个 简单 但 有 洞察 力 的 例子 来 回答 这 个 基本 问题 。 
例 9 一 对 独立 源 的 两 个 不 同 特性 
考虑 包含 一 对 独立 随机 源 信号 S| 和 S 的 生成 模型 ， 这 两 者 都 具有 0- 均值 和 单位 方差 。 泥 
合 和 矩阵 由 下 面 的 非 奇 异 矩 阵 定 义 : 
fl 一 1! 
a=]; a 


该 例 包 含 两 个 部 分 : 在 第 一 部 分 ， 两 个 源 都 是 高 斯 分 布 ; 在 第 二 部 分 ,一 个 源 是 高 斯 分 布 ， 为 
一 个 是 一 致 分 布 。 | 

由 概率 理论 ， 我 们 知道 下 面 的 高 斯 分 布 的 两 个 性 质 (Bertsekas and Tsitsiklis, 2002); 

1.0 -均值 高 斯 随机 变量 的 高 阶 矩 都 是 均等 的 旦 由 方差 唯一 定义 〈 即 对 于 0 -均值 特例 的 二 
ME). 

2. 两 个 线性 拉 伸 〈 加 权 ) 高 斯 随机 变量 也 是 高 斯 型 。 

因而 就 有 当 两 个 源 信 号 S AS, 都 是 0 -均值 高 斯 型 时 ， 观 测 X, AX, 也 是 0 -均值 的 高 斯 
型 。 而 且 ， 对 于 规定 的 混合 矩阵 ，Xi 具有 方差 

(1)?oi 十 (一 1 oz = 17, 
AX, 具有 方差 

(1)?o1 + OY o = 65, 
这 里 ,oi 二 1, = 16, 

图 10. 10a 画 出 了 源 信号 S: WS, 的 直方 图 ， 而 b 画 出 了 观测 xX, 和 Xs 的 相应 的 二 维 分 布 。 
检查 图 10. 10b， 我 们 发 现 二 维 分 布 是 关于 原点 对 称 的 ， 其 信息 内 容 对 于 在 原始 源 信号 S 和 S。 
的 各 个 方向 之 间 区 分 是 不 充分 的 。 

下 面 考虑 源 S 是 0 -均值 和 单位 方差 的 高 斯 分 布 ， 源 S: 是 区 间 [一 2，2」 上 的 一 致 分 布 。 
图 10. 11a MET S! MS. 的 直方 图 ，b 画 出 了 相应 的 观测 X 和 X 的 二 维 分 布 。 和 第 一 种 情 
形 的 图 10. 10b 相似 ， 图 10. 11b 的 二 维 分 布 关 于 原点 对 称 。 然 而 ， 对 于 图 10. 11b 分 布 的 深入 
检查 揭示 了 两 个 特点 : 

1. 高 斯 分 布 源 信号 Si (无 限 支 持 ) ， 沿 着 斜率 为 1 的 正身 显示 。 

2. 均匀 分 布 源 信和 号 S; (无限 支持 )， 沿 着 斜率 为 一 2 的 负 方 向 显示 。 

此 外 ， 这 两 个 斜率 与 混合 矩形 的 元 素 值 相关 。 

由 第 二 种 情况 得 到 的 结论 是 ， 观 测 X, ，X: 的 二 维 分 布 包含 了 足够 的 方向 信息 ， 这 些 信息 
是 跟 源 信号 S, S 是 线性 可 分 有 关 的 。 这 个 非常 理想 的 条 件 ， 只 在 允许 单个 源 信 号 有 高 斯 分 


布 时 才 出 现 。 E 
以 这 个 例子 的 结果 为 基础 ， 现 在 可 以 继续 回答 我 们 提出 的 基础 问题 ， 源 信号 在 分 离 器 输出 
的 可 行 的 可 分 性 。 


1. 观测 XX, , 义 , ,… Xn 必须 具 有 和 相应 的 二 阶 矩 不 相关 的 高 阶 和 矩 。 相 应 地 ， 源 信号 Si， 
S$; ,…,S» 必须 是 非 高 斯 的 。 

2. 仅 有 一 个 源 被 允许 具有 高 斯 分 布 。 

作为 小 结 ， 源 分 离 的 必要 条 件 是 源 是 非 高 其 的， 混合 矩阵 是 非 奇 异 的 ， 生 成 模型 必须 满足 
这 两 个 条 件 。 特 别 地 ， 我 们 可 以 有 如 下 声明 (Cardoso, 2003): 

独立 分 量 分 析 ICA) 是 随机 向 量 分 解 为 尽 可 能 统计 独立 的 线性 分 量 ， 这 里 术语 “独立 ”理解 
为 强烈 的 统计 意义 ; ICA 超出 (二 阶 ) 了 去 相关 因此 需要 表示 数据 向 量 的 观测 是 非 高 斯 的 。 
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a) 两 个 过 程 的 直方 图 : 上 面 的 直方 图 表示 0- 均 值 和 方差 ci=1 的 高 斯 源 信号 S,; 
下 面 的 直方 图 表示 0- 均 值 和 方差 03=16 的 高 斯 源 信号 S 





x, 


线性 混合 信号 入 和 XX, 的 二 维 分 布 


图 10. 10 ”两 个 高 斯 分 布 过 程 





U «ol 


0 ] 2 3 


一 


4 


a) 两 个 过 程 的 直方 图 : 上 面 的 直方 图 表示 0- 均 值 和 方差 ai 的 高 斯 源 信 号 3; 
下 面 的 直方 图 表示 在 区 间 [-2.2] 上 一 致 分 布 的 源 信 号 > 


图 10.11 高 斯 和 一 致 分 布 过 程 


ww ai bbt.com DODODODODODO 





和 信息论 学 习 模 型 . 323 


324 ' 第 10 章 信息 论 学 习 模 型 





x 


l 
h) 线性 混合 信号 XX 和 X, 的 二 维 分 布 


图 10.11 (4£) 


ICA 算法 的 分 类 

现在 我 们 建立 了 线性 混合 源 信号 分 离 的 必要 条 件 ， 我 们 可 以 继续 给 出 两 个 概括 定义 的 ICA 算法 
家 族 : 

1. 根植 于 最 小 化 互信 息 的 ICA 算法 


最 小 化 图 10. 9 的 框图 中 分 离 器 输出 之 间 的 互信 息 为 ICA 算法 的 设计 提供 了 一 个 自然 的 基 
fii. ICA 算法 的 第 一 个 家 族 包含 如 下 : 

1.1 由 Amari 等 (1996) 提出 的 算法 ， 这 一 算法 基于 相对 粹 。 这 一 算法 在 第 10. 14 中 讲述 。 

1.2 由 Pham (1992) 提出 的 算法 ， 这 一 算法 基于 最 大 似 然 估 计 。 这 一 算法 归于 贝 叶 
斯 理论 的 边缘 ， 其 忽略 了 先 验 信 息 。 这 将 在 10. 15 节 讨 论 。 

1.3 由 Bell and Sejnowski(1995) 提 出 的 最 大 互信 息 (Infomax) FH, HAETFRAWER 
则 。 这 一 算法 在 10. 16 节 讲 述 。 在 Cardos(1997) 中 ,证 明了 Infomax 算法 和 最 大 似 然 估 计算 
法 等 价 。 

实际 上 上， 尽管 这 些 ICA 算法 的 形式 不 同 ， 但 它们 都 是 最 小 化 互信 息 的 基本 变形 。 


2. 根植 于 最 大 化 非 高 斯 性 的 ICA 算法 


算法 的 第 二 家 族 包 括 fastICA 算法 (Hyvarinen and Oia，1997) ， 它 利用 负 箭 作为 非 高 斯 
型 的 测量 。 而 且 ， 这 一 算法 不 仅 代 表 了 它 这 一 类 ， 而 且 和 其 他 ICA 算法 相 比 计算 速度 更 快 。 
fastICA Æ 10. 18 节 讨 论 。 

在 讨论 前 述 的 ICA 算法 之 前 ， 我 们 下 面 通过 考虑 自然 图 像 来 探索 ICA 的 信和 号 处 理 能 力 。 


10.13 ”自然 图 像 的 稀疏 编码 以 及 与 ICA 编码 的 比较 


在 第 8 章 ， 我 们 强调 了 自然 图 像 高 阶 统计 的 重要 性 以 及 那些 统计 量 对 图 像 模型 化 的 影响 。 
在 本 节 中 ， 我 们 强调 自然 图 像 的 另 一 个 重要 特性 〈 名 为 稀 朴 ) 以 及 捕捉 它 的 ICA 的 角色 。 在 
这 样 做 的 时 候 ， 我 们 给 出 了 ICA 在 实际 应 用 中 的 重要 性 。 

10. 9 节 讨 论 了 如 何 将 最 小 完 余 准则 应 用 于 模型 化 视觉 系统 (Atick and Redlich，1990) 。 在 Dong 
and Atick(1995) 以 及 Dan 等 (1996) 中 ， 这 一 原则 的 应 用 延伸 到 去 看 视觉 系统 中 视网膜 神经 节 细胞 
的 性 质 是 如 何 通过 白 品 化 或 者 去 相关 由 这 些 细 胞 根据 自然 图 像 的 1/f 振幅 功率 谱 产生 的 输出 集 来 解 
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释 的。 随后 ，Olshausen and Field(1997) 指出 Atick 和 合作 者 研究 的 模型 的 基本 局 限 : 那里 所 考虑 的 
减少 元 余 局 限于 自然 图 像 中 的 像素 中 的 线性 两 两 相关 ; 这 些 相 关 可 由 PCA 捕获 。 然 而 ， 实 际 上 ， 自 
然 图 像 由 于 以 线 和 边 为 方向 展示 了 高 阶 相关 (尤其 弯曲 的 变种 ) 在 自然 图 像 中 是 普遍 存在 的 。 

在 Olshausen and Field(1997) 中 描述 了 一 个 概率 模型 用 于 捕捉 自然 图 像 中 的 高 阶 相 关 结 
构 。 更 重要 的 是 ， 这 一 模型 是 用 基 函 数 的 线性 重 登 来 描述 的 ， 如 下 所 示 


I(x) = Š jag: (x) (10. 74) 


其 中 回 量 x 记 二 维 图 像 TOx) 中 的 离散 空间 位 置 ， 贞 (0 记 基 函数 ，ai 记 混 合 振 幅 。A; 的 计算 值 
构成 了 编码 方案 的 输出 。 而 且 ， 基 函 数 被 选择 为 自 适应 的 ， 是 为 了 说 明 以 可 能 的 最 佳 方式 下 统 
计 独 立 事件 收集 的 观点 下 图 像 的 内 在 结构 。 因 此 ， 建 立 在 Field(1994) 的 工作 基础 之 上 ，OI- 
shausen and Field(1997) 作 了 如 下 的 推测 : 


RAARO TD FRAR E a; 的 合适 的 先 验 ， 式 (10.74) 是 基于 这 样 的 直觉 自然 图 像 
可 以 通过 相关 小 数目 的 结构 单元 来 描述 ， 这 样 的 结构 单元 由 边 、 线 以 及 其 他 基本 特征 来 例证 。 


为 了 验证 这 一 推测 ，Olshausen 和 Field 实现 了 下 面 的 两 个 任务 ， 

1. 构成 稀 路 编码 算法 日 的 是 最 大 化 根植 于 图 像 处 理 和 信息 论 的 稀疏 。 这 一 算法 设计 用 
来 学 习 图 像 模 型 的 基 函 数 集合 ， 基 于 式 (10. 74) 的 图 像 模 型 将 最 好 地 用 稀疏 、 统 计 独 立 分 量 的 
方式 说 明 自 然 图 像 。 已 经 证 明了 稀 玻 编码 算法 最 小 化 和 ICA 同样 的 目标 函数 ， 但 是 由 于 过 完 
备 表 示 引 入 的 难 解 性 需要 做 一 个 通 近 。 

2. 生成 数据 ， 从 10 个 512X 512 像素 的 自然 环境 OA. AA. WKS) 图 像 中 取得 ; 
这 些 数据 用 于 训练 算法 。 


F 





10.12 ”对 自然 图 像 应 用 稀 玖 编码 算法 的 结果 (这 个 图 的 复制 得 到 了 Bruno Olshausen 博士 的 允许 
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由 稀 足 编码 算法 计算 得 到 的 一 个 稳定 解 通常 在 大 概 2 000 次 更 新 〈 即 大 概 20 000 次 图 像 表 
A) 后 获得 。 训 练 过 程 的 结果 在 图 10.12 中 给 出 ， 其 中 基 函 数 的 大 多 数 被 局 限 在 各 个 像素 中 。 
在 一 个 独立 的 研究 中 ，Bell and Sejnowski(1997) 将 ICA 应 用 到 包含 树木 、 树 叶 等 的 四 个 
然 场景 中 ， 它 们 被 转换 为 灰 值 图 像 ， 其 值 在 0 到 255 的 范围 内 。 将 在 10. 16 节 介 绍 的 ICA 的 
Infomax 算法 ， 在 这 一 研究 中 被 使 用 。 其 结果 在 图 10. 13 中 给 出 。 





图 10. 13 ”对 男 一 个 自然 图 像 应 用 ICA 的 Infomax 算法 的 结果 〈 这 个 图 的 复制 得 到 了 Anthony Bell 博士 的 允许 ) 


比较 图 10. 12 中 利用 稀 玖 编码 算法 的 解 和 图 10. 13 中 利用 ICA 的 Infomax 算法 的 解 ， 值 得 
关注 的 是 这 两 个 解 有 和 多么 相似 。 当 我 们 认识 到 完全 不 同 的 自然 图 像 被 用 于 独立 地 训练 这 两 个 算 


法 时 相似 性 是 所 有 更 值得 注意 的 。 
这 两 个 完全 独立 的 研究 告诉 我 们 下 面 两 个 重要 的 教训 
L 自然 图 像 是 内 在 稀疏 的 ， 它 们 可 以 通过 相关 的 小 数目 的 不 同 结构 单 元 来 描述 ， 其 例子 


包括 边 和 线 。 
2. 最 基本 的 是 ， 独 立 分 量 分 析 的 算法 具有 捕 提 这些 结构 单元 的 内 在 能 力 。 
因此 ， 图 10. 12 和 图 10. 13 的 结果 给 了 我 们 研究 ICA 学 习 算 法 的 动机 ， 我 们 将 在 下 面 的 四 


个 小 节 里 面 实现 这 一 点 。 
10. 14 独立 分 量 分 析 的 自然 学 > 


考虑 输入 -输出 关系 
Y = WX (10. 75) 


这 里 随机 向 量 X 记 观测 〈 即 分 离 器 输入 )，W 记分 离 矩 阵 ， 随 机 变量 Y way CBN Pe at 
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输出) 。 将 输出 Y 的 各 个 分 量 中 的 统计 独立 作为 育 源 分 离 的 期 望 性 质 ， 我 们 能 采用 什么 样 的 实 
际 测量 来 实现 该 性 质 呢 ? 为 了 对 这 一 基础 问题 的 回答 作 准 备 ， 令 py ly,W) 记 输出 Y 的 概率 密 
BRR, RARADABE W， 令 相应 的 析 因 分 布 定义 为 


pr ly) = I] 4, (yi) (10. 76) 


其 中 Dr (y) 是 随机 变量 Y.( 即 YY 的 第 i 个 分 量 〉 DR RR AP Ae, iA 
Py(y) 是 非 参 数 的 。 实 际 上 ， 式 (10.76) 可 以 看 成 学 习 规 则 (将 要 说 明 的 ) 的 约束 ， 人 迫使 其 将 py Cy, 
WAT AA py (ly) 对比， 理想 情况 下 ， 它 将 和 原始 源 相 匹 配 。 在 我 们 的 配置 下， 集中 于 作为 仅 有 
的 两 个 分 布 的 分 布 py (Cy, WA Py《y)， 我 们 现在 可 以 给 出 我 们 问题 的 答案 ， 这 隐 含 在 ICA 的 原则 里 : 

给 定 一 个 mX1 的 随机 向 量 和 来 表示 mn 个 独立 信号 源 的 线性 组 合 ， 通 过 这 样 的 方法 将 观测 向 量 
X 转换 到 新 的 随机 向 量 Y， 对 未 知 参数 给 阵 W 最 小 化 参数 概率 密度 函数 py(y，W) 和 相应 的 析 因 分 
At Py(y) 之 闻 的 相对 炉 。 

从 这 一 声明 中 可 知 ， 很 清楚 相对 焙 是 期 望 反 差 函 数 的 自然 基 ， 其 形成 构成 了 ICA 学 习 算 法 推导 
的 最 开始 一 步 。 作 为 ICA 的 未 知 参 数 的 分 离 矩 阵 W， 期 望 反 差 函数 是 W 的 函数 。 从 现在 开始 ， 我 


们 用 RC(W) 来 记 反 差 函 数 ， 根 据 式 (10. 3958-7 AT, BEE RT Rte ROW) 的 正式 定义 : 
pry W) 


TI v (y:) 


关于 这 一 公式 真正 值得 注意 的 是 : 它 作为 令 人 鼓舞 的 框架 被 用 于 推导 ICA 和 育 源 分 离 相关 文 
献 中 提案 的 多 个 学 习 算 法 (Cichocki and Amari, 2002). 

根据 10. 5 节 对 于 相对 米 的 讨论 ， 我 们 可 以 以 我 们 配置 的 两 个 炉 的 方式 重新 构造 期 望 反 差 
KR RCW), dF Et: 


RCW) = Zz py Cy, W)log dy (10. 77) 








RCW) =— ACY) + DIACYD (10. 78) 


3 ACY) 4) Bs Se HB OY HO, ACYD RY OB i tTRHWMAM. ROW) 是 用 于 对 
W 最 小 化 的 目标 郴 数 。 
fl oP RE h(Y) 的 确定 
输出 向 量 Y 与 式 (10. 75) 和 输入 向 量 X 相关， 这 里 W 是 分 离 矩 阵 。 根 据 式 (10. 18)， 可 以 
将 Y AGS RAS AB ONE : 
hCY) = hCWX) = ACK) + log | det(W) | (10. 79) 
XK HACK) XHAN, detCW) E W 的 行列 式 。 将 这 一 表达 式 用 于 式 (10.77)， 可 以 再 一 次 
重新 构造 期 望 反 差 函 数 ; 
RCW) =— h(X) — log | det(W) |+ STACY) 
~ (10. 80) 
=— A(X) — log | det(W) | 一 > ELlogpy Cy) J 
这 里 ， 对 于 方程 第 二 行 最 右 端 项 ， 利 用 式 10.10 以 及 对 Y HS. ERA ORM F 
分 离 矩 阵 W 的 ; 从 此 以 后 ， 在 推导 ICA 的 学 习 算法 时 我 们 忽略 这 一 项 。 
ICA 随机 梯度 算法 的 推导 
带 着 随机 梯度 下 降 的 思想 ， 和 
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值 。 对 于 手头 的 问题 ， 仅 有 一 个 需要 考虑 的 瞬时 值 ， 即 pr Cy). > pC(W) 记 期 望 反差 函数 
R(W)， 从 此 之 后 我 们 将 之 简单 称 为 反差 函数 (contrast function), Bp 

RCW) = ELoCW) ] 
Aik, Baa RC), RATA A AGL. 80) 来 写 : 


PCW) =— log | det(W) | 一 >) logy, Cy) (10. 81) 
随机 梯度 和 矩阵 定义 为 : 
o= 2d 5 ¢ 
V (W) 一 一 slog|det(W) -aw Du logdy, Cv? (10. 82) 


其 中 Y 为 对 分 离 矩阵 W 的 梯度 算 子 。 这 一 梯度 矩阵 的 两 个 部 分 被 分 别 考 虑 : 
1. 第 一 个 部 分 定义 为 


acl = Ww 
slog | detCW) | = W- (10. 83) 


其 中 Wee W 的 转 置 。 
2. 随机 梯度 矩阵 的 第 二 个 部 分 的 第 i 个 分 量 定 义 为 
slogBy Cy) = oo 5, logĝr, Cy.) (10. 84) 
其 中 w 是 分 离 矩 阵 W 的 第 MIDE, y 是 输出 向 量 Y, 的 样本 值 。 因 此 ， 取 式 (10.75) 第 i 


个 分 量 的 样本 值 ， 我 们 有 








yo = wi xsi = ],2,* „m (10. 85) 
Et x RAAE X KRE, y 是 Y; 的 样本 值 。 对 w; 微分 式 (10. 85)， 得 到 ， 
Əy: — 
w. x (10. 86) 
ma. 
Siac? TE P r, (yi) 
——lo Cy j= - — py (y) = — C10. 87) 
OY; Bpr ny py, (yi) Tia X Py, (yi) 
其 中 偏 导数 


by (yi) = 5, by Cyi) 
在 所 讨论 的 这 一 点 ， 我 们 发 现 为 构造 分 离 器 而 引入 激活 函数 p 是 便利 的 ; 具体 来 说 ,我 们 定义 


gi(yi) 一 一 二 i = 1 ,2 ，… 772 (10. 88) 
Py, Cy;) 
相应 地 ， 将 式 (10. 85) 代 人 式 (10. 88), FEB: 
=< logby, (yi) =— gi (YOK = 区 (10. 89) 
由 这 一 表达 式 ， 我 们 可 以 将 式 (10. 82) 中 随机 梯度 矩阵 的 和 项 部 分 表示 为 : 
-2 > logby, (7) == =— x67) (10. 90) 


其 中 激活 函数 向 量 表示 为 输出 向 量 y 的 函数 : 
中 (y) Lo (yi) ,pe 《yz ) °° y Om CYD] 
下 面 将 式 (10. 83) 和 式 (10. 90) 代 入 式 (10. 82), ， 得 到 需要 的 随机 梯度 矩阵 : 
V pCw) 一 一 W 十 中 7)x (10. 91) 
现在 ， 令 1 记 学 习 率 参数 ， 假 设 为 一 个 小 的 正常 数 。 然 后 ， 给 定式 (10. 91) 的 梯度 矩阵 ， 
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Xe Fay BS As BY Se et ed Ee : 
AW =— 7 VeC(W) = 7 LW — Oy) x? J (10. 92) 
由 于 立刻 将 变 得 明显 的 原因 ， 我 们 发 现 通过 首先 转 置式 (10. 85) 来 重新 构造 (10. 92) 是 便利 的 ， 这 产生 
y7 一 x WT 
因此 ， 可 以 重 写 式 (10. 92) 为 下 面 的 新 的 等 价 形式 : 
AW = gI (yx WWT = yl— (yy wT] (10. 93) 
其 中 工 是 单位 矩阵 。 相 应 地 ， 更 新 分 离 矩 阵 的 在 线 学 习 规 则 有 如 下 的 形式 ， 
Win+1) = Won) + n(n) [I— OOC) y Cn) JW? (Cn) (10. 94) 
校正 项 


其 中 参数 都 用 其 随时 间 变 化 的 形式 来 表示 。 
这 一 算法 不 良 的 性 质 是 通过 对 权重 矩阵 W 的 转 置 的 道 对 调整 项 的 后 乘 。 我 们 下 一 个 任务 
是 找到 一 个 方法 来 消去 道 的 计算 。 
等 变异 性 质 
ICA 算法 的 目的 是 更 新 分 离 矩 阵 Wa) 使 得 输出 回 量 
y(n) = Wn) x(n) = W(n)As(n) 
尽 可 能 地 在 某 种 统计 意义 下 和 原始 源 信 号 s(n) 相近 。 更 具体 来 说 ， 考 虚 由 系统 矩阵 COA 
的 全 局 系统 ，C(n〉 是 通过 将 混合 矩阵 A 和 分 离 矩 阵 W(z) 相 乘 而 得 到 的 ， 即 
Cin) = WO A (10. 95) 
理想 情况 下 ， 这 一 全 局 系统 满足 两 个 条 件 : 
1. 调整 C(n) 的 算法 收敛 到 等 于 交换 矩阵 的 最 优 值 。( 注 意 ， 一 个 有 符号 交换 和 矩阵， 在 每 一 
行 和 列 仅 有 一 次 十 1 或 一 1， 也 是 最 优 的 。) 
2. 这 一 算法 的 自身 描述 为 : 
Cin +1) = Cn) + 7 GCC) s(n) Cn) (10. 96) 
其 中 G(C(n)s(n)) BEA CCn)s(n) 的 矩阵 值 函 数 。 这 一 算法 的 性 能 是 由 系统 矩阵 Ce 
刻画 的 ， 而 不 是 由 混合 矩阵 A 以 及 分 离 矩 阵 Wo) 的 各 个 值 刻 画 。 这 样 的 自 适 应 系统 称 之 为 
等 变异 (equivariant) (Cardoso and Laheld, 1996). 
式 (10. 94) 的 在 线 学 习 算 法 当然 能 够 近似 满足 第 一 个 条 件 。 然 而 ， 如 其 所 表明 的 ， 它 不 能 满足 第 
一 个 条 件 。 为 了 说 明确 实 如 此 ， 我 们 用 混合 矩阵 A RERA. 94) ， 然 后 利用 式 (10. 95) 来 写 : 
Cin +1) = Cin) + An) (CW) s(n) WE A (10. 97) 
其 中 
G(C(n)s(n)) = I— b(C(n)s(n)) (CC) s(n) )* (10. 98) 
显然 ， 式 (10. 94) 的 算法 不 满足 式 (10. 96) IRM SRR. A AE RR GCC(n)s(n)) 
是 被 W-T(n)A 有 有 乘 ， 这 通常 是 和 CCn) 不 同 的 。 为 了 校正 这 一 状况 ， 我 们 在 式 (10. 97) 中 的 限 
数 G(C(n)s(n)) ALAR WT DA ZI ARR Wn) WO) 由 和 矩阵 W 及 其 转 置 的 积 组 
RAO WW 总 是 正定 的 。 这 就 是 乘 以 WTW 不 会 改变 学 习 算 法 极 小 点 的 符号 的 原因 。 
重要 的 问题 是 ， 这 一 修正 暗示 着 什么 来 达到 等 变异 条 件 ? 答案 在 于 参数 空间 的 梯度 方向 是 如 何 
形成 的 。 理 想 情 况 下 ， 可 以 利用 反差 函数 oC(W) 的 自然 梯度 *， 由 通常 的 梯度 VY WELA 
V*o(W) = (V p(W))W'W (10. 99) 
通常 的 梯度 矩阵 由 式 (10. 91) 定 义 。 在 潜在 意义 下 ， 梯 度 V pCW) 仅 在 参数 空间 WE (WERA EXE 
标 系 统 的 欧 几 里 得 空间 时 是 下 降 的 最 优 方向 。 然 而 ， 在 包含 神经 网 络 的 典型 状况 下 ， 参 数 空间 W 的 
誉 标 系 统 不 是 正 交 的 。 在 后 一 种 状况 下 自然 梯度 V* pC(W) 将 提供 最 速 下 降 一 一 因此 优先 使 用 它 来 蔡 
代 通 常 的 梯度 以 构造 ICA 的 随机 梯度 算法 。 对 于 要 定义 的 自然 梯度 空间 ， 必 须 满足 两 个 条 件 : 


ww ai bbt. com 000000 





330° 10 章 信息 论 学 习 模 型 


1. 参数 空间 W% 是 殖 受 的 〈Riemannian)”。 黎 曼 结构 是 可 微 流 形 〈 可 微 流 形 的 概念 在 第 7 章 
已 经 讨论 过 了 )。 
2. 矩阵 W 是 非 育 异 的 〈 即 可 逆 的 )。 
对 于 当前 的 问题 ， 这 两 个 条 件 都 是 满足 的 。 
相应 地 ， 现 在 我 们 通过 刚刚 描述 的 方式 来 修正 式 (10. 94) 的 算法 ， 人 允许 我 们 写 
W(n+1) = Wn) + na) LI— OC y DJW ODW nW T Cn) ) 
最 后 ， 认 识 到 矩阵 乘积 Wn) Wn) 等 于 单位 矩阵 ， 最 后 写 
Win+1) = Won) + yay LE — Cyn) Jy Gn) Wn) (10. 100) 
这 导致 带 有 期 望 等 变异 性 质 的 育 源 分 离 。 由 于 式 (10. 100) 的 在 线 学 习 算 法 的 推导 基于 自然 梯度 ， 这 
一 算法 在 文献 中 通常 称 之 为 独立 分 量 分 析 的 日 然 梯 度 学 习 算法 (Cichocki and Amari，2002)。 很 明 
显 ， 这 一 算法 的 一 个 完整 图 必须 也 包括 式 (10. 85) 的 输入 输出 关系 在 整个 输出 集 上 的 矩阵 表示 : 
TA 一 Wx 
算法 的 这 一 完整 的 输入 输出 图 在 图 10. 14 WA S i E Pe. 





图 10.14 式 (10.85) 和 式 (10. 104) 的 盲 源 分 离 学 习 算法 的 信号 流 图 : 标志 为 z I 
的 块 表示 单位 时 间 延 迟 单 元 。 这 一 图 包含 多 个 反馈 循环 


自然 梯度 学 习 算 法 的 重要 优势 

作为 拥有 等 变异 性 质 的 补充 ， 在 式 (10. 100) 中 描述 的 自然 梯度 学 习 算 法 具有 四 个 重要 优势 : 

1. 这 个 算法 是 计算 高 效 的 ， 因 为 它 避 兔 了 转化 分 离 矩 阵 W。 

2. 算法 的 收敛 速率 是 相对 快 的 。 

3. 这 个 算法 的 执行 以 一 种 自 适应 神经 系统 的 形式 。 

4. 作为 一 个 随机 梯度 算法 ， 这 一 算法 具有 追 迹 不 稳定 环境 的 统计 变化 的 内 在 能 力 。 
ICA 理论 的 鲁 棒 性 

式 (10. 100) 的 自然 梯度 学 习 算法 需要 式 (10.88) 定 义 的 激活 函数 o(y) 的 知识 ， 这 证 明了 
p(y) 是 依赖 于 边缘 分 布 By(y) 的 。 相 应 地 ， 为 了 使 这 个 算法 能 够 为 盲 源 分 离 问题 提供 满意 的 
解 ， 边 缘分 布 如 (y) 的 任意 数学 描述 必须 和 原始 独立 分 量 〈 即 源 ) 的 真正 分 布 相 近 ; 否则 ， 就 


有 严重 的 模型 不 匹配 。 
然而 ， 实 际 上 ， 我 们 发 现 仅 考虑 两 个 关于 每 个 独立 分 量 的 内 在 概率 分 布 的 可 能 通 近 是 足 
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1. 超 高 斯 分 布 (Super-Gaussian distribution) 。 这 一 分 布 具有 和 拉 普 拉 斯 分 布 相似 的 形式 ， 
定义 为 : 


py Cy) ag CRD Ca ae ee 


' 这 里 绝对 值 |y| 以 速率 a 指数 延迟 。 例 如 ， 语 音信 号 的 振幅 样本 倾向 于 服从 拉 普 拉 斯 分布。 

2. 亚 高 斯 分 布 (Sub-Gaussian distribution)。 这 第 二 个 分 布 类 似 于 log- 高 斯 分 布 ， 其 在 原 
点 附近 有 点 平坦 。 

在 之 前 关于 “逼近 ”的 陈述 是 ICA 理论 的 鲁 棱 性 的 证 明 、 

(i) 内 在 分 布 的 简单 模型 对 于 估计 独立 分 量 是 足够 的 。 

Gi) 在 对 每 个 独立 分 量 测 试 超 高 斯 和 亚 高 斯 逼近 时 的 小 的 模型 误差 是 允许 的 。 

更 具体 地 ，ICA 理论 的 鲁 棱 性 由 下 面 重要 的 定理 所 证 实 (Hyvirinen 等 ，2001) : 

令 by (y:) 记 由 分 离 器 输出 y; 表示 的 第 i 个 独立 分 量 〈 源 信号) 的 假设 概率 密度 函数 。 定 
LME RK.: BY, (yi) 一 / 


口 ~ 3- 
(y;) =— —logpy (yi) 一 一 二 ,Py Cy) = z Py Cy: 
paz Əy; Pen py, Cy) ia T a0 





假设 独立 分 量 {yi} 的 估计 约束 为 彼此 不 相关 ， 且 对 所 有 1 随机 变量 Y; 具有 单位 方差 。 则 独 
立 分 量 的 自然 梯度 估计 为 局 部 一 致 的 。 设 假定 的 分 布 满 足 如 下 条件. 
ELyp yd 一 pg Gdl]>0, 对 于 所 有 i (10. 101) 
其 中 


PO) = ao) 


这 一 定理 从 此 之 后 称 为 ICA 重 棒 定理 (Hyvärinen 等 ，2001)， 它 严格 地 证 明了 只 要 不 等 式 条 
件 (10. 101) 的 符号 对 所 有 i 保持 不 变 ， 在 逼近 分 布 六 (y) 中 小 的 差异 不 影响 利用 自然 梯度 学 
习 算 法 计算 的 独立 分 量 的 估计 的 局 部 一 致 性 "。 

对 于 自然 梯度 学 习 的 ICA 鲁 棒 定 理 可 以 等 价 地 应 用 于 第 10. 15 节 讲 述 的 最 大 似 然 佑 计 过 
程 。 而 且 ，ICA 和 鲁 棱 定理 告诉 我 们 ， 如 何 基于 式 (10. 101) 的 不 等 式 构造 函数 族 ， 族 中 的 每 一 对 
由 属于 超 高 斯 分 布 和 其 亚 高 斯 分 布 副 本 的 log- 高 斯 密度 函数 构成 。 实 际 上 ， 我 们 因此 在 两 个 候 
选 分 布 之 间 具 有 一 个 简单 的 二 位 选择 。 下 面 的 例子 解释 了 这 样 的 一 个 选择 。 

例 10 Bema Law ae 

考虑 一 对 log -密度 函数 

logp? (y) = a, — 2log coshCy) 


logpy (y) = az: 一 (57 — log cosh(y) ) 


Eha Ma 是 正常 数 ， 用 于 确认 每 一 个 函数 满足 概率 密度 函数 的 基本 性 质 。 正 和 负 的 上 标 用 
于 分 别 强调 考虑 中 的 函数 参照 超 高 斯 或 者 亚 高 斯 概率 密度 郴 数 。 
将 式 (10. 88) 的 公式 作用 于 激活 函数 py (>)， 得 到 双 曲 正切 函数 
go Cy) = tanhCy) 
这 里 为 了 数学 上 的 方便 我 们 忽略 了 乘积 因子 2。 将 这 一 结果 再 次 对 y Red. BT K 
数 的 梯度 | 
g` = sech’ (y) 
因此 ， 对 于 超 高 斯 函数 ， 式 (10. 101) 的 左边 生成 以 下 的 结果 (不 考虑 伸缩 因子 2) 
EL y tanh(y) — sech’ (y) ] 


对 于 py Cy) 进行 同样 的 两 个 操作 ， 得 到 
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g (y) = y— tanh(y) 
g (y) = ] — sech’ (y) 
因此 ， 对 于 亚 高 斯 消 数 ， 式 (10. 101) 的 左边 产生 
Ely’ 一 y tanhCy) —1+ sech? Cy) ] = EL— y tanh(y) + sech? (y) ] 
其 中 我 们 调用 了 0 -均值 随机 变量 Y( 由 样本 值 y 表示) 的 方差 是 1 的 假设 ， 即 FEL] 二 1。 
检查 刚刚 获得 的 超 高 斯 和 亚 高 斯 函数 的 结果 ， 我 们 发 现 它们 实际 上 具有 对 立 的 代数 符号 。 
于 是 ， 仅 有 其 中 一 个 满足 式 (10. 101) 的 不 等 式 ; 对 于 ICA 的 数据 集 满足 这 一 不 等 式 的 特别 的 
激活 函数 是 被 用 于 根植 于 独立 分 量 分 析 原 则 的 算法 类 〈 如 自然 梯度 学 习 算 法 ) 的 函数 。 m 


10. 15 ”独立 分 量 分 析 的 最 大 似 然 估 讨 


前 面 一 节 所 讨论 的 独立 分 量 分 析 的 原则 只 是 诸多 育 源 分 离 方 法 中 的 一 种 。 但 在 这 一 原则 的 
背景 中 ， 有 其 他 两 种 方法 能 够 以 无 监督 方式 解决 源 分 离 问 题 : RAKWMRKARAMK. EAD 
中 我 们 讨论 最 大 似 然 法 ， 在 下 一 节 中 讨论 最 大 箭 法 。 

最 大 似 然 法 是 一 个 统计 估计 的 良好 建立 的 过 程 ， 具有 一 些 良 好 的 性 质 *。 在 这 个 过 程 中 ， 
我 们 首先 建立 对 数 似 然 函 数 ， 然 后 根据 考虑 的 概率 模型 的 参数 向 量 对 它 进 行 最 优化 。 从 第 2 章 
的 讨论 中 ， 我 们 知道 似 然 函数 是 一 个 给 定 模型 中 的 数据 集 的 概率 密度 函数 ， 但 只 是 作为 模型 未 
知 参数 的 一 个 函数 。 根 据 图 10. 9, 令 ps(s) 表 示 样 本 值 是 s 的 随机 源 向 量 S 的 概率 密度 郴 数 。 
那么 在 混合 器 输出 端的 观测 向 量 X= AS 的 概率 密度 函数 定义 为 : 

bx (x,A) = | det(A) | ps (Ax) (10. 102) 
其 中 det(A) 是 混合 矩阵 A 的 行列 式 。 令 T= 二 {x4) 记 1 表示 随机 向 量 半 的 NN 次 独立 实现 组 成 的 训 
练 样本 。 于 是 可 以 写成 


pu(F Ad = [I] pe (10. 103) 
我 们 发 现 用 归 一 化 《 除 以 样本 数目 N) xO BEN OE 表示 为 
Nlogpx(F,A) = dS loga aA = = Di logas (A7 xo) — log] det(A) | 
NE 这 样 可 写成 
Nlogpx (J,A) = 5 D logs (ya) — log | det(A) | (10. 104) 


4 A=W #H py(y, WERA W 为 参数 的 Y REER. EEA O. 104) 中 的 求 和 是 
Pear E 从 大 数 定 律 发 现 ， 当 六 趋 于 无 穷 时 ， 


LCW) = lim i> logps Cy.) + log | detCW) | = ELlogps Cy) ] + log | detCW) | 


= | pyCy,Wolog ps(y)dy + log | detCw) | (10. 105) 


以 概率 1 mw, HPRBOHSREXKF YRS. BRA LOWER BWR UR. He 
FAR 





psy) = (L) ayw 


py Cy, W) 
我 们 可 以 将 工 (W) 表 示 为 等 价 形式 : 


Low) = 信和 rwW)log( 52890) dy + |" pry Wlogpr (y, Wdy + log | det(W) | 


=— RCW) —hCY,W) + log | detCW) | (10. 106) 
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其 中 我 们 运用 了 如 下 的 定义 : 
© 和 相对 炉 有 相同 公式 的 期 望 反差 了 肾 数 RCW)， 如 式 (10. 77) 所 定义 。 
© 如 式 (10. 12) 第 一 行 所 定义 的 微分 炉 h(Y，w)。 
下 面 ， 利 用 式 (10. 78) ， 最 后 重 写 式 (10. 79) 为 所 期 望 的 形式 
LOW) =— RCW) — A(X) (10. 107) 
其 中 ACX) FE op BS a a A tg AY BEL ed E XA PR (Cardoso，1998a)。 在 式 (10. 107) 中 ， 唯 一 
依赖 于 分 离 器 的 权 值 向 量 W Oe ee 2 ROW). AIA. LOD AWB ali Fa: 
最 大 化 对 数 似 然 函 数 L(W) 就 等 于 最 小 化 RCW)， 即 使 分 离 器 的 输出 Y 的 概率 分 布 与 初始 源 向 
E S 的 概率 分 布匹 配 。 
最 大 似 然 估计 与 独立 分 量 分 析 原 则 之 间 的 关系 
对 目前 问题 应 用 式 (10. 43) 所 描述 的 Pythagoream 分 解 ， 可 以 将 期 望 反 差 函 数 表示 为 极 大 似 然 
RCW) 一 Di + Dave, (10. 108) 
式 (10. 108) AB PFET A D, 1; 是 表征 独立 分 量 分 析 方 法 的 结构 失 配 的 度量 ， 第 二 个 相 
XH Da 1。 是 描述 初始 源 向 量 S 的 分 布 和 分 离 器 输出 Y 的 边缘 分 布 之 间 的 边缘 失 配 的 度量 。 因 
此 可 以 将 用 于 最 大 似 然 的 全 局 分 布匹 配 准 则 表达 如 下 ， 


(全 局 失 配 ) = (结构 失 配 ) 十 (边缘 失 配 ) (10. 109) 
D, l By Dy, | ps 


在 所 关心 的 式 (10. 109) 的 右边 ,，“ 结 构 失 配 ” 是 指 一 组 独立 变量 的 一 个 分 布 的 结构 ， 而 “ 边 绿 
失 配 ” 是 指 各 边缘 分 布 之 间 的 不 匹配 。 

在 理想 情况 下 WSA  〈 即 完全 盲 源 分 离 )， 结 构 失 配 和 边缘 失 配 都 消失 。 在 这 种 情况 下 ， 
最 大 似 然 与 独立 分 量 分 析 产 生 完 全 相同 的 结果 ， 理 想 情况 下 的 两 者 的 关系 描绘 在 图 10. 15 中 。 


F: 概率 分 布 的 全 部 集合 
(Py {y)} 








B={py (y,W) } 


有 参 分 离 器 输出 分 布 









pss) 
真实 的 源 分 布 
$: 所 有 独立 
分 布 集 合 






图 10.15 用 于 育 源 分 离 的 最 大 似 然 舍 计 与 独立 分 量 分 析 之 间 的 关系 示意 图 。 
最 大 似 然 最 小 化 D1 ， 而 独立 分 量 分 析 最 小 化 Dy, i 5、 
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在 这 个 图 中 ，9 是 分 离 器 输出 端 随机 向 量 Y 的 所 有 概率 密度 函数 pv(y) 的 集合 ; 8 是 所 有 独立 概 
率 分 布 的 集合 ， 也 就 是 那些 乘积 形式 。9 和 44 都 是 无 穷 维 的 。 集 3= (pry, W ) 是 在 分 离 器 的 
输出 端 测量 得 到 的 概率 分 布 的 有 限 集 。3 是 mw 维 的 ， 其 中 m 表示 Y 的 维 数 ， 权 值 向 量 W 是 其 
中 的 一 个 坐标 系 。 从 图 10. 15 中 ， 可 以 清楚 看 出 D, ys M Drnis WHA HR. mE., 
如 图 10. 15 所 示 ， 集 合 入 和 ,4 在 交点 处 正 交 ， 该 交点 由 真实 概率 密度 函数 ps (s) 所 定义 。 

对 于 一 个 基于 最 大 似 然 原则 的 育 源 分 离 算 法 必须 包括 对 固有 的 未 知 源 分 布 的 估计 ， 而 这 些 
源 分 布 通常 就 是 未 知 的 。 这 个 估计 的 参数 正如 调节 分 离 权 值 矩 阵 W 一 样 是 可 以 调节 的 。 换 名 
话说 ， 我 们 应 该 进行 混合 矩阵 和 源 分 布 〈 一 些 特征 ) 的 联合 估计 (Cardoso, 1997, 1998); 这 
种 联合 估计 的 一 种 巧妙 和 成 熟 的 方法 已 经 在 Pham | (1992, 1997) 中 给 出 。 


10.16 BRA BRAS 


在 本 节 中 ， 我 们 寻求 用 第 10. 3 HAWN RARE ARR BRD il es a Ah 
方法 。 考 虑 图 10. 16， 它 给 出 了 基于 这 种 方法 的 系统 方 框图 。 与 以 前 一 样 ， 分 离 器 对 观察 向 量 
a 进行 操作 ， 产 生 输 出 y 二 Wx， 它 是 初始 源 向 量 s 的 估计 。 向 量 y 经 过 每 个 分 量 为 非 线 性 的 变 
换 GC(。) 变 成 z， 且 G(，) 是 一 个 单调 可 道 函 数 。 因 此 ， 与 y 不 同 ， 对 一 个 任意 大 的 分 离 器 2 
的 微分 精 产 (Z) 保 证 都 是 有 界 的 。 对 于 给 定 的 非 线性 GO *). RAAT A WOOK bh (2) 
大 值 ， 得 到 初始 源 向 量 s 的 一 个 估计 。 根 据 在 例 7 中 导出 的 式 (10. 60)， 对 于 无 曲 声 网 络 ， 我 
们 回忆 到 最 大 炉 方 法 与 最 大 互信 息 原 则 是 紧密 相关 的 。 实 际 上 ， 这 是 由 于 基于 图 10.16 的 方案 
的 算法 在 文献 中 被 称 为 ICA 的 Infomax 算法 (Bell and Sejnowski, 1995), 









未 知 环境 


10.16 ”用 于 育 源 分 离 的 最 大 粹 原则 方 框图 。 向 量 s，x,， y 和 z 分 别 是 随机 问 
量 S，X，Y 和 ZZ 的 样本 值 


非 线 性 G 是 一 个 对 角 映 像 ， 表 达 为 


yı gı) Zl 
| (10. 110) 
me EP Lm 
也 可 以 写成 
z = G(y) = GCWAs) (10. 111) 
由 于 非 线 性 GOETE. BY WORE 0 E E s 利用 分 离 器 输出 向 量 z 表示 成 
s = A WG (z) = w@ (10. 112) 


其 中 G 是 一 个 非 线性 的 逆 : 
gi (zı) yı 





—] i 
n 《zz ) = K (10. 113) 


Zm m (zm) 5 


输出 向 量 z 的 概率 密度 函数 利用 源 向 量 s 的 概率 密度 函数 定义 为 ， 
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ps CS) 
| det(J(s)) | s= wlz) 


其 中 det(J(s)) È Jacobi 矩阵 Js) 的 行列 式 CPapoulis, 1984). JOS 的 第 ij 元 素 定 义 如 下 : 





Oz; 
Jy = & (10. 115) 
所 以 非 线 性 G AO RH a BL el at Z RN 
hZ) =— Fehr 
= ps CS) 
El log det Cs) | J S hee ELG) 


=— Dp yidi 在 D wz) 估 值 
Pa a DG AL OZ) EO TERME ps Cs) AH | det(J(s) | 定义 的 s 的 概率 密度 图 数 
SAO FASTA; 参见 式 (10. 35) 的 最 后 一 行 。 
假设 对 所 有 的 i， 随 机 变量 ZC BN Z 的 第 i 个 元 素 ) 在 LO, 1) 上 均匀 分 布 。 根 据 例 1， 那 
A ACL) 0. M, Mak (10.116) 得 到 
ps(s) = |det(J(s)) | (10.117) 
在 理想 情况 W 二 A 时， 这 种 关系 化 简 为 
ps (s;) = eli 2 = gts) 9 对 于 所 有 i (10. 118) 
相反 ， 如 果 式 (10. 118) 满 足 ， 则 最 大 化 h(Z) 得 到 W= 二 A '!， 从 而 育 源 分 离 问 题 得 到 解决 。 
现在 我 们 可 以 总 结 用 于 盲 源 分 离 的 最 大 炉 原则 思想 如 下 (Bell and Sejnowski,1995): 
如 图 10. 16 所 示 ， 令 在 分 离 器 输出 的 非 线 性 由 初始 源 分 布 定 义 为 
zi = gy) = | ps;(s,)ds;, % i = 1,2,,m (10. 119) 
最 大 化 在 非 线 性 G 输出 端的 随机 向 量 Z( 其 第 i 个 元 素 具 有 样本 值 z,;) HRPM FNT 
W 一 A-!， 这 将 产生 完全 的 育 源 分 离 。 
I KA Ai KAP H E ts HE 
对 所 有 的 i， 在 随机 变量 Z, 是 区 间 [0.1] LWA. RKTT KARKUR 


方法 对 让 源 分 离 问题 是 等 价 的 〈Cardoso，1997)。 为 了 证 明 这 个 关系 ,我 们 首先 利用 微分 的 链 
式 规则 将 式 (10. 1157 改 写 为 等 价 形式 : 


A Oz; OY; OF, A OZ; 
— O25 OM Se S (10. 120) 
Js 之 Əy; Ot, Os, H dy” 


其 中 偏 导 数 3z;/3y; 是 需要 定义 的 。 因 此 Jacobi 和 矩阵 了 可 以 表达 为 











J = DWA 
其 中 D 是 对 角 和 矩阵 
| Ozl Ozz OZm 
D = diag( So Əy? a 
所 以 


Idet(J) | = |detCwA) | IT a (10. 121) 


对 于 由 权 值 矩阵 W 和 非 线性 函数 G 参数 化 的 概率 密度 函数 ps(s)， 根 据 式 (10. 121), 它 的 估计 
可 以 形式 地 表示 为 〈Roth and Baram, 1996): 


psCs|W,G) = |det(WA)| I OB = (10. 122) 
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因此 在 这 种 条 件 下 ， 可 以 看 出 盲 源 分 离 最 大 化 对 数 似 然 函 数 logps(s|W.G) EHP TE kki 
ACL), hme, RAMA SRAWUATEASHM. 
育 源 分 离 的 学 习 算 法 

查看 式 (10.116) 的 第 二 行 ， 注 意 到 由 于 源 的 分 布 通常 是 固定 的 ， 最 大 化 炉 h(Z) 要 求 对 
AL HME W 求 分 母 项 log | det(J(s)) | 的 期 望 的 最 大 值 。 我 们 的 目标 是 找到 一 个 自 适 应 算法 来 进 
行 这 样 的 计算 ， 因 此 可 以 考虑 瞬时 目标 函数 : 


© = log|det(J) | (10. 123) 
将 去 (10. 121) FRAT C10. 123) 95 5]; 
© = log| det(A) | + log | det(W) | + > log( $*) (10. 124) 
所 以 对 分 离 器 的 权 值 矩阵 Wook 中 sneer (见习 题 10. 20): 
s = wit 2 2log( Se (10. 125) 


为 了 进一步 处 理 这 个 公式 ， 必 须 说 明 由 分 离 器 输出 馈 errs 这 里 可 以 使 用 的 非 线 性 
的 简单 形式 为 logistic 函数 : 
= ea att ;二 a 
au n a = a (10. 126) 


图 10. 17 m HAAMER KRR. ALARH logistic 函数 满足 盲 源 分 离 的 单调 
性 和 可 逆 性 的 基本 要 求 。 将 式 (10. 126) 代 入 式 (10. 125) 得 到 : 


oD _ wr E T 
SW W 二 (122)x 


其 中 x 是 接收 信号 向 量 ，z 是 分 离 鼎 的 输出 向 量 经 非 线 性 变化 后 的 输出 。1 是 分 量 都 为 1 的 
[a] E o 


-J 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 l 


图 10.17 a) logistic RM: z; =g(y;) =— b) logistic AAJ: y= g ' Cz) 
JAEN AW RE RAIA A., RERE FEA, MATA W 的 变 
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化 可 表示 为 ”: 
_ . o® 
ae 
其 中 了 是 学 习 率 人 参数。 与 10. 14 节 描 述 的 ICA 自然 梯度 学 习 算 法 相 类 似 ， 可 以 利用 自然 梯度 消 
除 对 转 置 权 值 矩 阵 W 求 逆 的 要 求 ， 这 等 价 于 对 式 (10.127) 乘 以 矩阵 积 WW. BTR 
产生 权 值 变化 所 希望 的 公式 为 ， 
AW== nCW + A 22)x WW = y+ (1 22) (Wx) )W 

= d+ (1 —22)y7) W 
其 中 工 是 单位 矩阵 ，y 是 分 离 器 的 输出 。 所 以 计算 权 值 矩阵 W 的 学 习 算法 可 以 表示 为 : 

Wn +1) = Win) +A + A — 220m)! Ca) Wr) (10. 129) 
算法 的 初 值 wW(0) 选 取 一 组 均匀 分 布 的 小 数值 。 参 照 图 10.16 的 方 框图 ， 我 们 可 以 看 到 在 第 n 
时 间 步 输出 yO) FAA x(n) 通 过 矩阵 积 Wao REN., WI, ERRIA EE W) 
的 更 新 ， 我 们 可 以 相应 地 计算 分 离 器 输出 yn) 的 更 新 值 。 


10.17 独立 分 量 分 析 的 负 炳 最 大 化 


在 10. 14 节 至 10.16 节 讨 论 了 ICA 这 样 或 那样 的 形式 ， 这 些 ICA 算法 基本 上 是 根植 于 统 
计 独 立 分 量 原则 的 ， 而 这 一 原则 自身 是 基于 10. 14 节 讨 论 过 的 相对 焙 的 。 本 节 我 们 将 背离 这 一 
原则 并 描述 另 一 个 不 同 地 根植 于 信息 论 的 ICA 算法 。 这 一 算法 称 为 FastICA 算法 ， 由 
Hyvärinen and Oja(1997) 提出。 

更 具体 来 说 ，FastICA 算法 开发 了 非 高 斯 性 的 概念 ， 而 非 高 斯 性 在 前 面 的 10. 12 节 中 讨论 
过 ， 它 是 独立 分 量 分 析 的 需要 。 对 于 随机 变量 的 非 高 斯 性 的 重要 测量 是 负 毁 ， 它 是 基于 微分 粮 
的 。 因 此 我 们 通过 描述 这 一 新 概念 来 开始 对 FastICA 算法 的 讨论 。 

Hi Hei 

在 例 2 中 ， 我 们 证 明了 高 斯 随机 变量 和 其 他 随机 变量 的 不 同 在 于 其 具有 最 大 的 可 能 微分 
凡 。 具 体 来 说 ， 高 斯 随机 变量 的 信息 内 容 是 约束 于 二 阶 统计 的 ， 由 此 能 够 计算 所 有 高 阶 统 计 。 
为 了 评估 一 个 随机 变量 的 非 高 斯 性 ， 需 要 假定 一 个 满足 两 个 性 质 的 测量 : 

1. 这 个 测量 是 非 负 的 ， 假 设 对 于 高 斯 随机 变量 其 极限 值 为 零 。 

2. 对 于 所 有 其 他 随机 变量 ， 这 个 测量 大 于 零 。 


AW = pW + (1 ~ 22)x’) (10. 127) 


(10. 128) 


fee OB A) ABE Ta AL A TE Jt. 
#8 > eS ESE LX, XE A 
N(X) = H(Xg%) — HCO (10. 130) 


其 中 HCX) E XKAM, H H Xay) 是 协 方差 矩阵 等 于 蕊 的 高 斯 随机 向 量 的 微分 箭 。 
按 信息 论 的 术语 ， 负 妈 是 关于 非 高 斯 性 的 良好 的 测量 。 但 这 需要 大 量 的 计算 时 间 ， 这 限制 
了 其 实际 应 用 。 要 克服 这 一 计算 困难 ， 我 们 必须 寻找 对 负 灶 的 简单 有 逼近。 下面 考 虚 0 -均值 单 
位 方差 的 非 高 斯 随机 变量 V。Hyvarinen and Oja(2000) 提案 了 通 近 : 
N(V) = EL@cv) | — ELEU) (10. 131) 
其 中 UU 也 是 0 -均值 单位 方差 的 高 斯 随机 变量 〈 即 它 是 标准 化 的 )。 对 所 有 实际 目的 ，@(*) 是 
非 一 次 函数 ; 令 人 满意 的 是 ， 这 一 函数 不 能 快速 增长 ， 因 而 使 得 估计 过 程 鲁 棒 。 根 据 
Hyvärinen and Oja(2000)， 下 面 给 出 的 两 个 选择 证 明了 其 有 效 性 。 
1. Cv) = log(cosh(v)) 《10. 132) 


2 
2. Pv) = exp(— 5) (10. 133) 
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其 中 是 随机 变量 V 的 样本 值 。 因 而 可 以 将 式 (10. 131) 作 为 独立 分 量 分 析 目 的 的 最 大 化 的 “ 反 
ERA”. BR SRA. PAR B(v) 可 以 看 作 概 率 密度 也 数 。 注 意 在 式 (10. 132) 和 式 (10. 133) 
中 使 用 的 BC:) 不 能 与 式 (10. 123) 中 使 用 的 矩阵 下 相 混淆 。 
FastICA 算法 的 基本 学 习 规 则 

为 了 给 FastICA 的 开发 铺路 ， 我 们 首先 考虑 这 个 算法 的 一 个 单一 单元 Csingle-unit) 版 
本 。 术 语 “unit” 表 示 一 个 具有 可 调 权 值 向 量 w 的 神经 元 。 这 个 神经 元 将 被 设计 来 供 我 们 推 
出 FastICA 算法 的 基本 学 习 规 则 。 

A x 为 巴 白 品 化 的 0- 均值 随机 向 量 X 的 样本 值 ， 其 被 应 用 于 神经 元 的 输入 。 我 们 通过 如 
下 的 做 法 来 开始 推出 基本 学 习 规 则 。 

最 大 化 可 调 权 值 向 量 w 对 随机 向 量 买 的 投影 的 负 精 ， 在 外 w||= 王 1 的 约束 之 下 。 


投影 是 通过 内 积 wIX 来 定义 的 。 有 了 预 白 品 化 的 随机 向 量 X， 约 束 | wl 三 1 等 价 于 约束 
投影 具有 单位 方差 ， 如 下 所 示 : 
var[w7X] 一 ECwTX):] = EF[w XX w]= w’ ELXX’? Jw= w'w= || wl:=1 
(10. 134) 
在 式 (10. 130OK8—-A, ATM X H -HEBR ERIT, AAS XM Re 
假设 。 

为 了 使 基本 的 学 习 规 则 是 计算 有 效 的 ， 我 们 寻找 式 (10. 131 Hi REAT SR NA NV) 
HAR, RE V=w X., MFU 是 0 -均值 单位 方差 的 标准 高 斯 随机 变量 ， 因 而 独立 于 w， 这 
就 有 对 于 w 最 大 化 NCV) 等 价 于 最 大 化 非 二 次 函数 B(V) 二 BC(w"X)。 因 此 可 以 重新 构造 感 兴 
趣 的 优化 问题 如 下 : 


最 大 化 期 望 E[BC(w x)]， 在 wj 二 1 的 约束 之 下 。 
根据 优化 理论 的 Karush-Kuhn-Tucker 条 件 〈 在 第 6 章 讨论 过 )， 对 这 一 有 约束 最 大 化 问 
题 的 解 可 以 在 下 面 的 方程 中 找到 : 
9 Epwx)]— aw = 0 (10. 135) 
aw 
其 中 x 是 随机 向 量 X 的 样本 值 。 期 望 E[ BCw x) 对 于 权 值 向 量 w 的 梯度 向 量 为 : 
EL@(w'x) J= E| Ow) | = p| ac 加 -pwa | =Elxg(w’x)] (10. 136) 





ow ow x 
其 中 pC*) 是 非 二 次 函数 下 (对 其 自 变 量 的 一 阶 导 数 ， 即 
dlv) 
olv) = To 


例如 ， 对 于 式 (10. 132) 定 义 的 图 数 OO), A 
plu) 一 F loglcosh(w)) = tanh(v) 
对 于 式 (10. 133) 定 的 函数 Ow), A 
2 2 
glu) = <(- exp(— =) = v exp(— P 


2 
因此 ， 可 以 重 写 式 (10. 135) 为 等 价 形式 : 
ELxe(w"x)] 一 Mw 一 0 (10. 137) 
我 们 感 兴趣 的 是 找到 执行 基本 学 习 规 则 的 计算 有 效率 的 迭代 过 程 ， 此 时 最 优 权 值 向 量 w 指 
向 独立 分 量 的 方向 。 为 此 ， 我 们 提出 将 牛顿 法 应 用 于 式 (10. 137) 的 左边 。 
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用 向 量 值 函 数 来 记 这 一 表示 式 如 下 : 
fCw) = ELxpCw x) | —Aw (10. 138) 
在 第 3 章 和 第 4 章 讨 论 过 牛顿 法 。 要 应 用 该 方法 ， 我 们 需要 函数 fC(w) 的 Jacobi HM, Hw Fst 
定义 : 
Jow = Of(w) = 2 {FE xe(w"x) ] —Aw} = 2 ELxg(w'x) ] —~ 2 Qw) 
Ow OW OW OW 


= E| 2 xetw"x) | — AI = lxx" (w'x) | —Al (10. 139) 


其 中 1 是 单位 矩阵 。g(*) 是 函数 pg(*) 对 其 自 变 量 的 微分 。 换 名 话说 pg(*) 是 初始 函数 B(*) 对 其 
自 变量 的 二 阶 导 数 。 现 在 我 们 可 以 看 到 ， 为 什么 稍 早 时 候 我 们 声明 gp(*) 必 须 是 非 二 次 函数 ; A 
则 ， 在 式 (10. 139) 中 w (将 等 于 一 个 常量 ， 而 这 是 不 可 接受 的 。 

然而 ， 在 继续 进行 之 前 ， 我 们 希望 进一步 简化 基本 学 习 规则 的 推出 。 由 于 输入 辐 量 x 锌 预 
白 品 化， 因此 可 以 假设 外 积 xx? 和 式 (10. 139) 中 的 项 w (w'x) 是 统计 独立 的 。 在 这 一 假设 下 ， 
可 以 继续 写 

Exx o (wx) | ~ ELxx7]ELo(Cw7x)] = Elg (wx) JI (10. 140) 

其 中 ， 在 最 后 一 行 ， 我 们 利用 了 输入 x 的 白化 性 质 : 即 ELxx”」 二 I。 相 应 地 ， 我 们 现在 发 现在 
式 (10. 139) 的 Jacobi SA J](w) 的 整个 表达 式 具有 标量 乘 以 单位 矩阵 了 的 形式 ， 如 下 所 示 : 


JCw) = (Ele Cw’ x) | — A) (10. 141) 
SEM. AT AAI. RMT UE MRNA: 
wr=w-J Cw) fCw) (10. 142) 


其 中 w 是 权 值 向 量 的 老 的 值 ，w+ 是 更 新 值 。 也 注意 到 我 们 在 迭代 步 中 使 用 了 负 号 ， 因 为 我 们 
是 在 寻找 函数 fw) 的 最 大 值 。 因 此 ， 将 式 (10. 141) 代 人 到 式 (10. 142)， 得 到 : 
w= w— (Elg (wx) | —24) (ELxp(w x) | — Aw) 
可 以 通过 在 等 式 的 两 边 乘 以 标量 〈ELw' (wx)] 一 1》 来 简化 选 代步 ， 这 产生 : 
wt = (Elg (w'x) ] —A)w— (E[xe(w"x) ] —Aw) = Flg (wx) Jw—ELxg(w'x)] (10.143) 
其 中 ， 在 左边 ， 在 新 的 值 w+ 中 我 们 吸收 了 伸缩 因子 (ELP (wx)]j 一 1)。 并 注意 到 我 们 不 需 用 
知道 拉 格 朗 日 乘 子 4 的 值 ， 因 为 它 在 式 (10. 143) 的 迭代 步 中 被 代数 消去 了 。 

式 (10. 143) 是 我 们 所 探索 的 基本 学 习 规则 的 核心 。 实 际 上 ， 根 据 这 一 式 子 ， 我 们 现在 可 以 
模型 化 单一 神经 元 ， 这 一 公式 围绕 这 个 神经 元 建立 ， 如 图 10. 18 所 示 。 根 据 这 个 图 ， 将 非 线性 
函数 o(*) 看 作 神 经 元 的 激活 函数 。 

有 了 式 (10. 143) 的 迭代 步 ， 我 们 最 终 可 以 总 结 FastICA 算法 的 基于 牛顿 法 的 学 习 规 则 
WTF: 

1. 选择 权 值 向 量 w 的 初始 值 ， 利 用 随机 数 产生 器 在 w 的 欧 几 里 得 范 数 为 单位 1 的 约束 下 
来 选择 。 

2. 利用 权 值 向 量 w 的 老 的 值 来 计算 更 新 值 : 

wt = Elo (wx) lw — El xo(w x) | 

3. 归 一 化 更 新 后 的 权 值 向 量 w+ 使 得 其 欧 几 里 得 范 数 为 1， 如 下 所 不 : 

wt 
o dw l 

4, 如 果 算 法 还 没有 收敛 ， 转 回 到 第 2 步 并 重复 这 一 计算 。 

为 了 计算 学 习 规 则 第 2 步 的 期 望 ， 我 们 可 以 调用 遍历 性 Cergodicity) Ff ALFA SEF BGA fel 
E x 的 独立 样本 (实现 ) 序列 的 时 间 平 均 来 代替 期 望 。 

我 们 说 学 习 规 则 收敛 〈 即 规则 达到 了 一 个 均衡 点 ) 当 更 新 的 权 值 向 量 w 和 老 的 权 值 疝 量 


Ww 
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wih AM amy. Bl, AR w w 的 绝对 值 接近 于 单位 1。 然而， 由 于 仅 在 乘积 伸缩 因子 
内 ICA 算法 能 够 检测 独立 分 量 ， 因 此 不 需要 寻找 权 值 向 量 w 和 w 指向 完全 相同 的 方向 的 均衡 
RAs Wo 是 w 的 负 也 是 可 接受 的 。 

作为 最 后 的 批注 : 算法 的 推导 以 及 应 用 是 基于 混合 器 输出 已 经 被 也 白化 的 前 提 下 ; 而 预 白 
化 问题 在 第 10. 12 市 中 讨论 过 ，。 


p (v) =p (WX) 
where w= Lassa] 





图 10.18 表示 FastICA 算法 的 基本 学 习 规则 特征 的 神经 元 模型 


FastICA 算法 的 多 单元 版 本 
自然 地 ， 在 单一 神经 元 上 建立 的 基于 牛顿 法 的 学 习 规 则 ， 仅 能 估计 生成 观测 向 量 x 的 m 
个 独立 分 量 ( 源 ) 中 的 一 个 。 为 了 将 这 一 规则 扩展 到 估计 所 有 的 m 个 独立 分 量 ， 我 们 明显 需 
要 一 个 具有 m 个 神经 元 的 网 络 或 者 其 等 价 物 。 
为 了 探索 这 一 网 络 所 需要 满足 的 条 件 ， 令 wow Ww, 记 由 网 络 的 m 个 神经 元 产生 的 权 
值 向 量 。 为 了 这 个 向 量 集 能 够 表示 盲 源 分 离 (BSS) 问题 的 正确 解 ， 需 要 两 个 条 件 : 
1. 正 交 性 。 假 设 随机 观测 向 量 X 被 同时 作用 于 m 个 神经 元 ， 产 生 输 出 集 : 
(V >o’ t V= wX 
为 了 阻止 所 有 m 个 权 值 向 量 收 伍 到 相同 的 独立 分 量 ， 我 们 需要 神经 元 输出 之 加 是 彼此 不 相关 
的 ， 即 . 
ELVV | 一 0， 当 7 关 (10. 144) 
因此 ， 有 了 Vi=w, X fil V =w; X=X w; ， 我 们 有 
ELV.V; | = ELw? XX'w, ] 一 wTELXX Jw; = ww, 当天 1 
其 中 ， 在 最 后 一 行 ， 我 们 利用 了 观测 向 量 X 的 白化 性 质 。 因 此 ， 随 后 为 了 满足 式 (10. 144) 的 去 
相关 性 质 ， 权 值 向 量 w ,ws ，……w DAG RIES, OP Bm: 
ww =0, 当 j 关 i (10. 145) 
2. 归 一 性 。 为 了 和 基于 牛顿 法 的 学 习 规则 相 一 致 ， 我 们 需要 将 每 一 个 权 值 向 量 归 一 化 使 
其 欧 几 里 得 范 数 等 于 单位 1， 如 下 所 未 : 
lw, || =1, 对 于 所 有 :1 (10. 146) 
将 条 件 1 和 2 放 在 一 起 ， 总 结 如 下 : 
为 了 使 权 值 向 量 Wi ;Wi，"… ,Ws 能 提供 生成 观测 向 量 X 的 m 个 独立 分 量 〈( 源 ) HT, È 
们 必须 构成 一 个 正 交集 ， 如 下 所 示 : 
fl, By=t 


Wi Wi = (10. 147) 
0, 其 他 


Gram-Schmidt 正 交 化 过 程 
式 (10. 147) 所 加 于 权 值 向 量 的 两 个 必要 条 件 使 我 们 想起 一 个 简单 的 降 阶 方法 (deflational 
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method) ， 它 基于 Gram-Schmidt 正 交 化 过 程 ”， 用 于 逐一 估计 所 有 的 mm 个 独立 分 量 。 该 方法 
最 初 是 由 Hyvarinen and Oja(1997, 2000) 提出 的 。 具 体 来 说 ,假设 我 们 首先 在 观测 癌 量 x 的 
N 个 独立 实现 (样本 ) 上 运行 单一 神经 元 的 基于 牛顿 法 的 学 习 规 则 ， 获 得 m 个 独立 分 量 中 一 
个 权 值 向 量 w 的 估计 。 当 在 x 的 下 一 个 六 独立 实现 集 上 运行 这 一 规则 时 ， 假 设 结 果 权 值 回 量 
记 为 us 。 对 于 第 二 个 权 值 向 量 采用 不 同 记号 的 理由 是 向 量 a; 不 一 定 和 w 是 正 交 的 。 为 了 矫正 
正 交 性 这 一 必要 条 件 的 偏 移 ， 我 们 应 用 Gram-Schmidt 正 交 化 过 程 ， 获 得 : 
0, = œ 一 《az Wi ) Wi 

其 中 从 Q2 中 减 去 “投影 ” Caz Wi ) Wio 认识 到 | | Wi | = ls 直接 可 证 0: 实际 上 是 正 交 于 w 的 ， 
Bl bw 一 0。 剩 下 要 做 的 是 通过 下 式 归 一 化 8: 


0, 
o lel 


按 这 一 种 方式 进行 下 去 ， 假 设 在 观测 向 量 x 的 下 一 个 NN 样本 集 上 ， 基 于 牛顿 法 的 学 习 规 
则 产生 权 回 量 0 ， 再 一 次 a; 和 ws 以 及 wi 不 一 定 正 交 。 为 了 校正 这 些 偏 差 ， 我 们 再 一 次 应 用 
Gram-Schmidt 正 区 化 过 程 ， 得 到 


6: = a; — (aw WwW 一 (oj ws )w? 


这 里 从 a, 中 减 去 了 投影 (aw) w, j=l, 2. AA |w |= lw | =l Eww=0, Be 
可 证 6 和 w 以 及 w: 都 正 交 。 因 此 ， 剩 下 要 做 的 是 归 一 化 6 : 
_ 9: 
8 Tes 


我 们 可 以 继续 这 一 方式 直到 求 出 所 有 m 个 独立 分 量 。 

下 面 总 结 利用 Gram-Schmidt 正 交 化 过 程 计算 期 望 的 m 个 权 值 向 量 : 

L 给 定 w 为 由 单一 神经 元 基于 牛顿 法 学 习 规 则 在 其 完全 迭代 下 产生 的 归 一 化 权 值 向 量 ， 
给 定 Q2 979""" sQ 为 规则 在 下 1 次 完全 迭代 产生 的 权 值 问 量 ， 计算 


Oa = Ge 一 >) ow yw; si = 1,2,.…,m— 1 
HEP “HOB” COA. ww; 被 从 on PRET j= = 


2 归 一 化 0-4, 
sas eT, ey ee 
Wm 
基于 这 一 过 程 的 FastICA 算法 表示 了 这 个 算法 的 单一 单元 降 阶 版 本 *。 
FastlCA 算法 的 性 质 


和 其 他 的 ICA 算法 相 比 ，FastICA 算法 具有 一 些 希 望 的 性 质 (Hyvirinen and Oja, 2000; 
Tichavsky 等 ，2006 ) : 

1. 在 无 品 、 线 性 生成 模型 的 假设 下 ，FastICA 算法 相对 来 说 是 快速 的 一 一 这 个 算法 因此 
而 得 名 。 在 10. 14、10.15、10. 16 节 中 讨论 过 的 基于 梯度 的 ICA RRB TAEDA, 
而 FastICA 的 收敛 是 三 次 的 (或 至 少 两 次 )。 

2. 和 基于 梯度 的 ICA 算法 不 同 ，FastICA 不 需要 利用 学 习 率 参数 ， 使 得 其 设计 更 简单 。 

3. FastICA 算法 具有 利用 任意 非 二 次 型 的 非 线性 P(z) 找到 实际 上 任意 非 高 斯 分 布 的 独立 
分 量 的 内 在 能 力 。 与 算法 的 多 功能 性 相 比 较 ， 基 于 梯度 的 ICA 算法 的 适用 限制 于 亚 高 斯 或 者 
超 高 斯 分 布 ， 而 且 必 须 对 非 线 性 的 选择 特别 小 心 。 

4. 通过 对 非 二 次 函数 p(*) 的 适当 选择 ， 以 式 (10. 132) 和 式 (10. 133) WHA, FastICA 算法 
的 鲁 棒 性 可 以 得 到 保证 ， 甚 至 在 大 的 数据 集 以 及 在 某 种 噪声 条 件 下 。 
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5. 由 FastICA 算法 系统 化 地 计算 一 个 一 个 的 独立 分 量 。 算 法 的 这 一 特征 使 其 对 于 探测 数 
据 分 析 (exploratory data analysis) 成 为 一 个 有 用 的 工具 ， 其 中 独立 分 量 极限 数 的 估计 可 能 是 
感 兴趣 的 应 用 所 需要 的 。 这 一 分 析 的 计算 负载 因而 得 到 削减 。 

6. FastICA 算法 具有 几 个 通常 和 神经 网 络 相 关联 的 特性 ， 并 行 性 、 分 布 式 计算 、 和 简单 性 、 
小 的 存储 容量 需求 。 另 一 方面 ， 基 于 随机 梯度 的 ICA 算法 (以 10. 14 节 讨 论 的 自然 梯度 算法 
为 例 ) 对 于 包含 不 稳定 环境 的 盲 源 分 离 问 题 是 更 好 的 选择 ， 此 时 对 于 快速 目 适应 有 着 明确 的 


需要 。 
10.18 ”相关 独立 分 量 分 析 


通过 回顾 本 章 前 面 已 经 介绍 过 的 关于 信息 论 在 学 习 模 型 的 建立 方面 的 素材 ， 我 们 发 现 最 大 
化 互信 息 原则 (或 者 简称 Informax JAW) 是 突出 的 。Infomax 原则 不 仅 在 我 们 理解 元 余 删 减 、 
感知 器 的 模型 化 、 独 立 分 量 的 提取 时 扮演 着 重要 的 角色 ， 而 且 其 相关 的 Imax RAS 
提取 空间 相关 特征 的 角色 。 实 际 上 ，Infomax 和 Imax 原则 是 互补 的 角色 : 


Infomax 处 理 穿 过 网 络 的 信息 流 ， 而 Imax 处 理 穿 过 一 对 网 络 输出 的 空间 相关 性 。 


图 10. 19 描述 了 这 两 个 原则 包含 在 一 起 的 情景 。 具 体 地 ， 我 们 有 两 个 分 离 的 但 是 维 数 相 同 
的 神经 网 络 : 神经 网 络 a 由 权 值 矩阵 W, Am, Wi o hR W, 刻画 。 这 两 个 网 络 都 假 
设 为 无 噪 的 ， 目 标 是 将 Infomax 和 Imax 原则 组 合 起 来 使 得 前 面 提 到 的 性 质 综 合 起 来 成 为 一 个 
混合 学 习 原 则 ， 该 性 质 根据 Infomax 原则 的 每 个 网 络 的 信息 流 以 及 根据 Imax 原则 通过 视 为 一 
对 一 对 Cpair-by-pair) 基 的 两 个 网 络 的 神经 输出 的 空间 相关 性 。 


Maximum / (Y: X,) 


Maximum / (Y; Yp) 
for =1,2,-°:; l 





Maximum 7 ( Y,:X,) 


图 10. 19 相关 ICA 的 一 对 网 络 布局 


Infomax 原则 的 部 分 
首先 考虑 作用 于 穿 过 图 10. 19 所 示 的 每 个 网 络 输入 -输出 的 Infomax 原则 。 然 后 ， 由 式 (10. 60)， 
其 属于 无 品 的 例 7， 由 权 值 矩 阵 W. 刻画 的 网 络 可 通过 互信 息 描述 : 
ICY, ;X.) =—ELlogpy, Cy.) J} 
其 中 ， 为 了 简化 表达 ， 我 们 忽略 了 和 权 值 矩阵 W 无 关 的 附加 常数 ; 而 且 ， 我 们 使 用 了 包含 随 
机 向 量 的 炉 的 式 (10. 60). 。 由 于 构成 输出 随机 向 量 Y 的 元 素 是 “独立 ”的 ,我 们 可 以 将 7。 的 
概率 密度 函数 表示 为 : 
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Pyp 一 IL, (Yai) 
其 中 1 是 输出 端口 数 。 因 而 可 以 继续 写 
ICY, +X.) =— ef iog T] Pr, G3.) =—£[ Diog pr, ui) |si = 1,257} (10. 148) 
相似 地 ， 对 于 第 二 个 网 络 ， 由 权 值 和 矩阵 W, 刻画 ， 可 以 写 
ICY, ;X,) =— E| Dlogpr, (94) Ju aie (10. 149) 
Imax 原则 的 部 分 


下 面 考虑 Imax 原则 ， 该 原则 应 用 于 这 两 个 网 络 的 输出 ， 按 逐 对 的 原则 对 待 。 根 据 式 
《10. 50) 的 第 二 行 ， 在 输出 Ya M 有 :之 间 可 以 用 系 词 来 表示 互信 息 如 下 : 


TOY,,;; Y,,,) = E| loger, Y, east | 9 = t = 1 2 
此 外 ， 由 于 图 10. 19 中 每 个 网 络 的 :个 输出 是 独立 的 ， 这 些 各 个 互信 息 部 分 是 加 性 的 ， 生 
成 和 : 


t l 
> PCY: $Y,;) = E| > logcy a, (Yai syn) | (10. 150) 


ARI AA 


A J(W,，W,) 记 总 体 平均 目标 函数 ， 解释 了 Infomax 和 Imax 原则 的 联合 功能 。 然 后 ， 续 
合式 (10. 148) 到 式 (10. 150) 的 互信 息 部 分 ， 写 出 : 


J WW) 一 -上 | Dlogpe, Guu) | -E| $) logn, Go) 一 时 D lower, Y, is | 
i=] 1 一 1] rt Bai 
= E| DlogCpy, (mi po, (baer, Y, ei 99h ) | 


——E| > logp You u3) | (10. 151) 


其 中 ， 在 最 后 一 行 ， 使 用 式 (10. 49) 表 示 输 出 随机 变量 了 .和 双 ,, 的 联合 概率 密度 函数 。 目 标明 
数 J(W,，W,) 定 义 了 这 两 个 网 络 输 出 集 (YAY. Ra, 而 这 两 个 集合 被 
视 为 有 序 的 一 对 一 对 基 ; 这 些 输出 相应 地 依赖 于 权 值 矩 阵 WL M We RO, EE, £ 
结合 系 词 部 分 时 我 们 在 式 (10. 151) 的 第 一 行 引 人 了 负 号 。 这 样 做 ， 期 望 的 两 个 网 络 输出 集 之 回 
的 有 序 统计 相关 得 到 了 加 强 ， 因 此 我 们 可 以 作出 下 面 的 陈述 : 


相关 ICA 原则 最 大 化 网 络 输出 的 两 个 集合 Cy hier (pe 的 联合 精 的 总 体 和 ， 过 两 
个 集合 视 为 有 序 一 对 一 对 基 。 最 大 化 是 对 两 个 成 分 网 络 的 权 值 给 阵 W, 和 W 求 得 的 。 


为 了 进一步 的 处 理 过 程 ， 我 们 给 出 两 个 合理 的 假设 : 
1. 图 10. 19 的 两 个 神经 网 络 都 是 线性 的 ， 如 下 所 未 : 
Yasi Wii Xo, é 
p= [Pe] = [Mere tts (10.152) 
其 中 wip wz 是 权 值 矩阵 W, 和 W, 相对 应 的 第 i 行 问 量 。 
2. 如 第 10. 13 节 讨 论 的 那样 ， 在 自然 场景 中 取得 的 数据 通常 是 稀 榴 的 ， 混 合 输出 网 量 y 
的 分 布 可 以 通过 0 -均值 广义 高 斯 双 变 量 分 布 来 描述 ， 其 2X2 协 方差 矩阵 是 之 ， 如 下 所 未 ， 
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es I k Ty-ly No/? —— eee 
by Cy.) PELE real > (Ey: i (10. 153) 
其 中 参数 a ER AMHBR HR. DHAEST MH: 
fi e 
z= | P (10. 154) 


这 是 定义 在 式 (10. 6769 Imax 的 协 方差 矩阵 的 方差 归 一 形式 。 相 关系 数 o 控制 一 对 网 络 输出 
ysi 和 ys; 之 间 的 相关 程度 (对 所 有 站。 增加 po 不 影响 系 词 的 形状 或 倾斜 度 ; 它 通过 促成 穿 过 两 
个 网 络 的 学 习 的 更 大 相关 来 影响 Imax 在 Infomax 上 的 相关 重要 性 。 

对 于 a 二 2， 式 (10. 153) 的 分 布 误 减 为 高 斯 双 变 量 分 布 。 对 于 小 于 2 BM a, (10.153) FF 
呈现 超 高 斯 分 布 的 形式 ， 如 图 10. 20 对 三 个 不 同 的 a 值 所 说 明 的 那样 。 特 别 对 于 a 二 1.3， 式 
(10. 153) 假 设 了 一 个 更 像 语 音信 号 的 拉 普 拉 斯 分 布 的 形式 。 

向 量 y 包含 两 个 元 素 y。 和 yo。 因此 ， 将 式 (10. 153) 代 人 式 (10.151) 并 忽略 常数 项 
2rdet (X), FTA: 


JCW,.W,) = SE Motz yy | (10. 155) 


概率 密度 函数 





3 -2 一 


0 
单 值 
图 10.20 ”对 应 于 参数 a 的 变化 值 的 广义 高 斯 分 布 


其 中 总 体 平 均 是 对 y 来 完成 的 。 为 了 简化 计算 复杂 度 ， 利 用 二 次 形式 yi 五 'y;， 对 所 有 i 的 肯 
时 值 来 忽视 总 体 平均 的 需要 。 因 而 ， 利 用 式 (10. 154) 对 协 方差 矩阵 TEM, BE: 


jCW,, W) = 31 > EE y | 
= a Yt — BOY ia Yin + Vier” (10. 156) 
其 中 在 jCW。，W,) 上 的 小 帽 将 它 和 总 体 平均 的 对 应 物 区 分 开 。 
两 个 网 络 学 习 规 则 的 形成 
为 了 形成 对 权 值 向 量 W,,; 的 自 适应 规则 ， 通 过 对 wT Was WO 来 开始 。 利 用 微 积 
分 学 的 链 式 规则 ， 书 写 为 : 


d ÎCWa W) 9JCWW) dyn: (10. 157) 
OW, i dYa.: OWa,i 


ww aibbt.com P0O000000 





BiB ”和 信息论 学 习 模型 : 345 


对 yi 微分 式 (10. 156) 产 生 : 


oJW, We) 
Oya:i l o a~e Ce Nd Vai aoa ye) a (10. 158) 
Al FSR C10. 152) ， 我 们 发 现 对 Wo; 微分 Yai = waik, 产生 
Oya, = 
Bw X, (10. 159) 
因此 ， 在 式 (10. 157) 中 利用 式 (10. 158) 和 式 (10. 159), ， 获 得 梯度 向 量 
Ə J CW, .W,) 
Bw a Ey et T Bt) eu Liye i) PO C10. 160) 


目的 是 最 大 化 瞬时 目标 函数 J(W,,W,)， 这 意味 着 我 们 对 迭代 计算 利用 梯度 上 升 (gradient as- 
cent)。 相 应 地 ， 作 用 于 wu ARE XA: 


AW = CY PV oni) Mavi = 2OY ai) 6,3 ya AR (10. 161) 
相似 地 ， 作 用 于 权 值 向 量 wi 的 改变 量 定义 为 : 
AWs,; = oy O — Vaid Yki — OY ai Yoi + OT Ky, (10. 162) 


其 中 假设 网 络 5 和 网 络 a 采用 同一 个 学 习 率 参数 7. 
对 于 网 络 a Alb 的 权 值 修 正 分 别 由 下 式 表示 : 
wi, = Wai + AW, (10. 163) 
Wi: = Wa: + Awy,; (10. 164) 
Hp i= 1,2l, 
式 (10. 163) 和 式 (10. 164) 这 两 个 修正 规则 ， 建 立 在 式 (10.161) 和 式 (10.162) 的 权 值 改变 
AW,,: 和 AW,,; 之 上 ， 构 成 了 相关 ICA 算法 。 
式 (10. 161) 和 式 (10. 162) 的 解释 
检查 式 (10. 161) 和 式 (10. 162) 的 学 习 规 则 的 代数 结构 是 有 意义 的 。 首 先 来 看 式 (10. 161), 
我 们 看 到 作用 于 权 值 矩阵 W。 的 第 i 个 列 向 量 的 改变 AW... RFA 10. 19 所 示 的 网 络 ce， 由 下 
面 三 个 基本 因子 组 成 : 
1. 伸缩 因子 cy/(1 一 站)， 这 可 以 简单 地 看 成 修正 的 学 习 率 参数 ， 它 对 于 所 有 的 :计算 
Aw. Ai Aws.; 而 言 是 共通 的 。 对 于 参数 a 的 修改 仅仅 影响 算法 的 目 适 应 率 。 
2. 因子 Yai pyn) Xe 可 以 表示 为 两 个 二 次 形式 的 差 .， 如 下 所 示 : 
(Yasi — OV bi Xa = (Xa Wai Xa) 一 OCX Wa. Xe ) 
第 一 个 二 次 形 (x7w.;x,) 仪 仪 包含 网 络 a， 而 第 二 个 二 次 形 (x wi%) 包 含 了 网 络 a Mb., KE 
需要 指出 的 重点 是 这 样 的 事实 : 第 二 个 因子 (nino) % 是 独立 于 参数 a 的; MMB, 
这 个 因子 是 完全 不 受 输出 向 量 y 是 否 脱 离 高 斯 性 的 影响 的 。 
3. 第 三 也 是 最 后 一 个 因子 Oiu oyayi Ty) 也 可 以 用 二 次 形 来 表示 ， 如 下 所 示 : 
ya ZOY aid bri + yia) = (Wau Xa Xa Wa,i 一 2 OWa,i Xa Xb We, 十 Wé, Xo Xp Ws.i) 
在 这 个 因子 中 参数 a 以 最 显著 的 方式 影响 着 算法 的 运行 。 特 别 地 ， 当 a 二 2 时 ， 这 个 因子 的 客 
变 成 了 0， 因 而 排除 了 这 个 因子 对 算法 的 影响 。 当 ae<2 时 ， 这 在 处 理 超 高 斯 分 布 时 产生 ， 相 关 
ICA 算法 完成 其 出 色 的 信号 处 理 角 色 。 | 
除了 下 标 oa 和 4b 相互 交换 之 外 ， 对 作用 于 式 (10. 162) 的 学 习 规 则 具有 相似 的 解释 。 
实际 考虑 
在 完成 相关 ICA 学 习 的 过 程 中 ， 假 设 了 图 10.19 PRA x. A xX, 是 预 白化 的 ， 这 在 
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ICA 相关 的 工作 中 是 通常 的 做 法 。 而 且 ， 在 学 习 过 程 的 每 一 次 迭代 中 ， 权 和 值 是 归 一 化 的 ， 如 下 
所 示 : 





Wai 一 7 (10. 165) 
以 及 





W,,; = (10. 166) 


这 些 归 一 值 在 算法 的 下 一 次 迭代 中 使 用 。 

对 于 包含 数据 模型 的 应 用 ， 此 时 有 由 空间 变换 数据 构成 的 两 个 数据 流 ， 如 图 10. 19 Bra. 
在 两 个 数据 流 之 间 加 强权 值 共 享 约 束 是 有 用 的 ， 此 时 设 : 

Was 一 Wais 对 于 所 有 :; (10. 167) 
we Fel sc — 24 Be 4) A TERE. 165) 和 式 (10. 166) 计 算 的 wi,; 和 w. KORA. 
此 ， 通 过 对 网 络 a 和 4 分 配 相同 的 初 5; 仅 值 矩 阵 来 开始 相关 ICA 的 权 值 自 适应 规则 ， 在 自 适应 
规则 的 每 一 步 权 值 共享 性 都 得 到 保持 。 

为 了 描述 相关 ICA 原则 的 重要 实际 应 用 ， 我 们 现在 讨论 相关 ICA 原则 是 如 何 对 自然 声音 
的 听 党 编码 中 学 习 滤 波 器 提供 一 个 计算 工具 的 。 
听觉 编码 : 相关 ICA 作用 于 自然 声音 

在 听觉 系统 的 一 些 结构 和 范 数 专业 限定 中 ， 时 间 是 显而易见 的 。 在 听觉 刺激 的 多 个 时 间 尺 
度 上 ， 我 们 发 现 区 别 一 个 听觉 刺 激 波 形 的 两 个 特定 分 量 是 有 益 的 〈Joris 等 ，2004): 

lL 载体 ， 由 波形 的 好 的 结构 来 表示 ， 它 以 “调幅 ”方式 增 大 和 变 小 。 

2. 包 络 ， 它 是 调幅 波形 的 轮廓 。 

从 调幅 理论 可 知 ， 信 息 承 受信 号 〈 即 调制 信号 ) 包含 在 受 调 信 号 的 包 络 Cenvelope) F., 
从 生理 学 的 观点 ， 对 调幅 的 兴趣 是 由 想 要 知道 包 络 处 理 是 否 实际 从 人 在 听觉 系统 而 激发 的 。 

事实 上 ， 穿 过 多 层 听 觉 系统 ， 存 在 与 进来 的 调幅 语音 信和 号 相应 的 神经 元 。 特 别 地 ， 听 党 系 
统 的 连续 层 通过 对 不 同 局 限 范围 的 调幅 率 的 响应 区 分 开 来 : 较 底 层 通 常 响应 于 进来 的 听觉 刺激 
能 量 中 的 快速 变化 ， 新 渐 地 较 慢 的 变化 在 较 高 层 中 发 生 。 根 据 这 一 事实 ， 在 声音 感知 中 调幅 被 
认为 是 一 个 重要 的 听觉 提示 就 不 奇怪 了 。 

以 听觉 处 理 作 为 感 兴趣 的 问题 ， 我 们 将 要 讲述 的 问题 如 下 所 未 : 

L 给 定 调 幅 语 音信 号 的 加 性 混合 ， 我 们 如 何 分 离 独立 分 量 的 包 络 而 忽略 相关 联 的 载体 ? 

相关 的 问题 如 下 所 述 : 

2. 在 自 组 织 的 方式 下 ， 我 们 如 何 学 习 在 听觉 系统 中 不 同 处 理 层 响应 于 调幅 刺激 的 过 程 的 ? 

对 这 一 基本 问题 的 实验 的 答案 可 以 从 相关 ICA 中 找到 CHaykin and Kan, 2007). 

在 相关 ICA 中 ， 目 标 是 提取 包含 在 通过 分 离 源 的 保持 了 “相关 ”的 信号 ， 同时， 和 源 相 
关联 的 通过 网 络 的 信息 流 被 最 大 化 。 因 为 在 调幅 中 ， 包 络 和 载体 相 比 缓慢 变化 ， 我 们 可 以 将 调 
幅 看 成 所 考虑 的 包 络 范围 内 的 时 间 相 和 干 性 : 即 分 别 通过 两 个 时 间 步 At 秒 , 假设 At EB), A 
以 设 ra+HAD STC). 

在 Kan(2007) 和 Haykin and Kan(2007) 中 ， 相 关 ICA 算法 被 应 用 于 英语 演讲 者 们 的 语音 
样本 集 ， 这 个 集 是 从 TIMIT 数据 库 中 取得 ”。 这 个 实验 说 明了 利用 相关 ICA 学 习 的 两 层 听 和 沉 
处 理 的 语音 数据 的 滤波 器 集 是 平滑 的 且 局 限于 时 间 的 。 更 重要 的 是 ， 实 验 的 结果 表明 了 两 个 重 
要 的 特征 : 
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1. 两 层 中 滤波 器 的 带宽 仅 包 含 调制 谱 频 率 ， 忽 略 载体 频率 。 

2. 第 一 层 处 理 计算 的 基带 〈 即 基于 调制 的 ) 滤波 器 具有 10 倍 于 第 二 层 处 理 计算 的 基带 滤 
波 器 的 切断 频率 。 换 名 话说， 实验 模型 〈 基 于 相关 ICA) 的 第 一 层 更 多 地 虽 应 于 输入 听 和 党 信和 与 
的 快速 变化 ， 反 之 ,模型 的 第 二 层 响 应 于 输入 的 较 慢 变化 。 

简单 地 说 ， 通 过 相关 ICA 学 习 的 滤波 器 ， 当 作用 于 自然 声音 的 时 候 ， 基 市 滤 波 姻 显示 为 
展示 出 相似 于 耳蜗 核 和 下 丘 的 生物 神经 元 的 性 质 。 


10.19 BARBRA RMR 


到 目前 为 止 ， 我 们 集中 于 信息 论 的 两 个 基本 概念 CRE) 作为 学 习 信 息 论 学 习 的 两 
个 支柱 。 在 这 一 节 中 ， 我们 转向 信息 论 学 习 中 另 一 个 富有 启发 性 的 速率 失真 理论 。 在 我 们 的 思 
想 中 这 一 方法 被 称 之 为 信息 瓶颈 方法 ， 在 Tishby 等 (1999) 中 首次 提出 。 

速率 失真 理论 ， 作 为 香农 信息 论 CER, 19483) 的 固有 部 分 ， 处 理 具 有 可 能 失真 数据 的 压 
缩 ， 其 有 目的 的 应 用 导致 了 总 数 可 测量 的 数据 失真 。 压 缩 数据 的 动机 在 于 产生 数据 的 新 的 流 使 
得 从 平均 上 比 原始 的 数据 流 需 要 更 少 的 字 位 数目 来 表示 或 者 传输 。 

为 了 给 介绍 信息 瓶颈 方法 铺 平 道路 ， 我 们 从 速率 失真 理论 开始 讨论 。 
ako! 
一 个 信息 源 产生 的 数据 流 ， 来 率 失 直 理论 的 目的 在 于 寻找 在 具体 的 信息 流速 率 下 可 达 
ne a tt ttn 对 于 预定 的 失真 层 寻 找 可 达到 的 信息 流 的 最 小 速率 。 

若 要 从 分 析 术 语 上 来 说 明 这 一 理论 ， S XX 记 概 率 密度 函数 px (x) 的 一 个 随机 向 量 ， 由 一 
信息 源 产 生 。 相 应 地 ， 令 概率 密度 函数 gr(t) 的 随机 向 量 T 表 示 X 的 一 个 压缩 版 本 。( 注 意 我 们 
对 分 布 X 和 开采 用 不 同 的 记号 。) 根据 式 (10. 28) 的 最 后 一 行 , X 和 T 之 间 的 互信 息 表示 为 
gr | x (t | x) 


0 ) dx dt 





XD = | | xatto og( 
a 
联合 pdf 
其 中 gilt ORRE 定 X 后 工 的 条 件 概 率 密 度 函 数 。 关 于 向 量 X 和 了 T 之 间 的 距离 测量 ， 使 用 记 
号 d(x，t)， 这 里 x 和 tt 分 别 记 义 和 T 工 的 样本 从 。 期 望 失真 定义 为 : 
Eldad] = | | pqr ELDAD dxdt (10. 168) 
EON ee 
联合 pdf 
速率 失真 理论 自身 通过 一 个 称 为 速率 失真 函数 的 函数 来 刻画 ， 记 为 R(D)， 
有 了 目前 的 记号 背景 ， 我 们 现在 可 以 正式 地 表示 速率 失真 理论 如 下 (Cover and Thomas, 
2006): 
Fk BKK BR 
RCD) = min 1X; T) 


My) t! 


其 失真 约束 为 
Efadx,t) | 才 D 


从 这 一 陈述 ， 很 明显 地 计算 速率 失真 函数 RD) 包含 解 下 述 约束 优化 问题 : 
在 源 及 其 表示 之 间 最 小 化 互信 息 ， 服从 预定 的 失真 约束 。 


这 一 优化 问题 能 通过 Blahut-Arimoto 算法 (Cover and Thomas 2006) 来 解 ， 这 是 通过 在 
两 个 未 知 分 布 的 凸 集 之 间 的 交互 投影 来 做 ， 如 10. 21 节 所 讨论 的 那样 。 
速率 失真 理论 的 最 大 成 果 在 于 ， 证 明 速 率 失真 聘 数 是 一 个 给 定期 望 失真 数据 的 任意 接 述 的 
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速率 〈 编 码 长 度 ) 的 渐进 可 达到 的 下 界 。 
信息 瓶颈 方法 

计 息 瓶颈 方法 建立 在 速率 失真 理论 基础 上 ， 通 过 “相关 变量 ”信息 2 来 代替 失真 项 。 在 多 
个 应 用 中 ,“ 真 实 失真 ”度量 是 未 知 的 或 者 未 定义 的 ， 但 是 关于 其 的 另 一 个 变量 我 们 可 以 保留 
一 些 给 定 信息 。 语 音 识别 问题 是 一 个 好 的 例子 。 在 这 一 问题 中 ， 众 所 周知 的 困难 是 形成 能 正确 
捕捉 人 类 声音 感知 的 失真 函数 ， 给 出 一 些 对 话 字 的 样 例 以 及 它们 的 语音 录制 更 容易 。 在 这 样 的 
例子 中 ， 我 们 寻找 高 录 语 音信 号 的 压缩 来 尽 可 能 多 地 保留 低 炳 语音 序列 的 信息 。 关 于 这 一 类 协 
同 出 现 数据 的 重要 例子 是 那些 其 失真 函数 不 能 直接 提供 的 例子 ， 单词 和 主题 ， 图 像 和 物体 ， 基 
因 表达 和 组 织 样本 ， 以 及 刺激 和 神经 响应 。 信 息 瓶颈 方法 已 经 被 成 功 应 用 于 这 类 数据 (Slonim 
等 ，2006)， 

信息 瓶颈 理论 是 通过 引入 记 为 了 的 辅助 (相关 随机 向 量 来 实现 的 。 这 一 新 的 随机 向 量 是 
(随机 地 ) 依赖 于 原始 的 ， 通 常 是 高 精 的 随机 人 向量 X 的 。 因 此 ， 互 信息 ICX;Y) 是 非 零 的 。 

X 是 将 要 压缩 的 随机 向 量 ，Y 是 我 们 将 预测 的 〈 或 者 是 关于 其 我 们 将 保持 尽 可 能 多 的 信 
息 》 随 机 向 量 。 通 过 引入 瓶颈 随机 向 量 T 作为 原始 随机 向 量 X 的 压缩 表示 ， 实 际 上 ， 我 们 已 
经 构造 了 两 个 信息 量 之 间 的 权衡 或 瓶颈 :一 个 是 关于 X 包含 在 中 ; 另 一 个 是 关于 YY 包含 在 
T 中 。 

特别 地 ， 我 们 将 通过 满足 组 合 方式 下 的 两 个 目标 来 解 信息 瓶颈 ， 

1. 将 原始 (高 粹 ) 随 机 向 量 X 的 样本 值 按照 这 样 的 方法 分 解 : 关于 相关 随机 向 量 Y 保存 
尽 可 能 多 的 互信 息 。 

2. 关于 原始 随机 向 量 X 损失 尽 可 能 多 的 信息 来 获得 最 小 分 解 的 最 简单 形式 。 

因此 ， 在 X 的 所 有 特征 表示 特性 中 ， 问 题 在 于 决定 仅 有 的 那些 和 Y 的 预测 最 相关 的 特性 。 

基本 上 ， 信 息 瓶 颈 理论 被 设计 为 寻找 最 优 相 关 数 据 表 示 。 问 题 如 下 . 

给 定 随机 向 量 义 和 相关 随机 向 量 Y 的 联合 概率 密度 函数 ， 在 X 的 关于 提供 信息 的 样本 
值 中 提取 最 小 充分 分 解 ， 通 过 未 知 分 布 gr|x(t|x) 来 最 小 化 如 下 信息 瓶颈 函数 来 寻找 瓶颈 随机 
向 量 T。 








J (qrlx Ct|x)) = TIT(X;T) — BIL(T;Y) (10. 169) 
服从 了 依赖 于 X 且 立 依 赖 于 下 的 需求 ， 且 服从 归 一 化 约束 。 


正 的 拉 格 朗 日 乘 子 8 是 压缩 (最 小 表达 ) 和 可 预测 性 〈 信 息 保 存 ) 之 间 的 权衡 参数 。 通 过 
在 0 和 无 穷 大 之 间 变 化 这 一 参数 ， 可 获得 -- 个 目的 信息 曲线 ， 类 似 于 速率 失真 函数 ， 它 提供 了 
压缩 和 预测 之 间 的 最 优 可 达 权 衡 。 
例 11 高 斯 信息 瓶颈 
对 于 信息 瓶颈 方法 的 一 个 分 析 处 理 ， 对 于 对 数 函 数 的 导数 ， 我 们 可 以 考虑 特征 向 量 问题 的 
AH 
Dog pyr ald 和 Qlogpyr(y|t) 
ot ot 


通常 因为 解决 这 类 问题 较 困 难 ， 我 们 转向 分 析 上 易 处 理 的 例子 ， 此 时 ， 原 始 随机 向 量 X 和 其 压 
缩 版 本 Y 通过 联合 多 变量 高 斯 分 布 来 描述 ， 如 在 Chechik 等 (2004) 中 那样 。 在 高 斯 框架 下 解 
特征 向 量 问题 的 耦合 对 有 助 于 典范 相关 分 析 (CCA)， 正 如 10.10 节 所 述 ， 这 是 Imax 原则 的 一 
个 特例 。 我 们 因而 发 现 要 解决 的 这 一 问题 是 寻找 对 子 空 间 的 线性 投影 ， 其 维 数 是 由 权衡 参数 B 
决定 。 特 别 地 ， 随 着 参数 8 增长 ， 附 加 维 数 〈 即 特征 值 ) 被 添加 到 投影 〈 瓶 颈 ) 向 量 工 中 ; Ñ 
过 一 系列 临界 点 或 结构 相 变 这 一 附加 表明 了 其 自身 ， 同 时 每 个 基 向 量 的 相关 欧 几 里 得 范 数 答 得 
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定 比 例 。 继 续 这 一 维 数 扩展 过 程 直 到 关于 压缩 向 量 Y 的 相关 信息 被 捕捉 到 瓶 领 问 量 工 中 。 这 
一 过 程 的 网 络 结果 是 在 信息 论 项 中 对 于 变化 8 而 言 信息 瓶颈 方法 是 如 何 提 供 一 个 连续 模型 复杂 
度 测量 的 润 察 性 说 明 。 1.0 
对 于 在 Chechik 等 (2004) 中 研究 的 高 斯 框 
架 ， 图 10.21 画 出 了 对 于 变化 的 8 而 言 互 信息 
I(T;Y) 和 互信 息 IT; XX) 之 间 的 图 形 。 在 图 
10.21 中 连续 平滑 曲线 表示 信息 曲线 ， 是 从 4 个 iwy 
特征 值 4; 二 0. 1,0.5，0.7，0.9 中 获得 的 。 相 应 
地 ， 在 图 中 用 小 圆圈 来 表示 临界 点 。 信 息 曲 线 
(通过 这 些 临 界 点 ) 从 几 个 分 段 中 构造 ， 实 现 了 
随 着 互信 息 TT;X) 的 增长 ， 附 加 特征 向 量 锌 用 | 
于 投影 。 为 了 比较 ,图 10. 21 也 给 出 了 每 个 8 用 eee Oe 
小 数目 的 特征 向 量 计 算 的 信息 由 线 。 
由 图 10. 21 中 的 结果 可 知 ， 高 斯 信息 瓶颈 方 








图 10.21 多 变量 高 斯 变量 的 信息 曲线 。 包 络 是 最 
优 压 缩 -预测 权衡 ， 通 过 从 0 到 无 穷 大 改 


法 信息 曲线 是 处 处 止 的 。 在 互信 息 I(T;X) 上 的 变 拉 格 朗 日 乘 子 8 来 捕捉 。 在 每 一 点 曲 
每 一 个 值 ， 信 息 曲 线 被 切线 所 界 ， 其 斜率 由 皮 线 的 斜率 由 1/8 给 定 。 总 是 存在 8 的 临 
数 8-1《ICT; 义 )) 所 定义 。 在 原点 ，I(T;X) 一 0， 界 低 值 决 定 了 原点 的 斜率 ， 低 于 其 仅 有 


平凡 解 。 次 优 有 曲线 是 在 工 的 维 数 限制 在 


斜率 8 OSIA, He 2, 是 原始 随机 问 量 六 ps > 
国定 低 值 时 获得 (这 一 图 的 复制 得 到 了 
及 其 压缩 版 本 YY 的 典范 相关 分 析 的 第 一 个 特征 Naftali Tishby 博士 的 允许 ) 


值 。 注 意 信息 曲线 的 渐进 斜率 是 0， 即 8 一 co。 
这 一 逼近 行为 简单 地 反映 了 报酬 渐 减 律 的 实现 : 在 原始 随机 向 量 X 的 描述 中 增加 更 多 的 字 位 信 








息 对 于 瓶颈 向 量 了 不 提供 增加 的 精确 上 度 。 E 
信息 瓶颈 方程 
信息 瓶颈 最 优 问题 的 解 是 通过 下 列 描述 向 量 的 瓶颈 方程 来 给 出 的 : 
qrix (t|x) = Zig por Dae) (10. 170) 
qi(t) = X) grx (tlx) px (x) (10. 171) 
qyr Cy | BD = Dairy Dan to (全 人 (10. 172) 


EAG. 170), Dp DA R A ER 
py |xCy |x) AL grr Cy | t) RARR Z BD 
是 归 一 化 (分解 ) 函数 。 图 10.22 描述 了 在 这 三 
个 方程 的 启发 下 的 信息 瓶颈 思想 。 





MAGO. 170A A C10. 172) 的 系统 ， 我 们 必须 /(X:T) ICT:Y) 
于 三 个 x (t| x), gr(t) r(yl)4 

对 于 三 个 未 知 分 布 gr| xCt10» arCO a 2 TOF so. 22 ARRIEN. ALT AA 

别 独立 地 求解 。Tishby % (1999) 证 明了 通过 始 随机 向 量 X 关于 相关 变量 Y 的 相关 部 

从 一 个 随机 分 布 开 始 以 和 速率 失真 理论 的 Sy, 通过 最 小 化 信息 I(X; T) 的 同时 保持 

Blahut-Arimoto 迭代 相似 的 方式 迭代 这 些 方程 ， ie as pre 
s drix\t| Xis qr dy \ 1 Ain» TA 

方程 收敛 到 参数 8 的 任意 值 的 最 优 解 。 表示 了 瓶颈 方程 (10. 170) 到 (10. 172) 的 解 


者 息 瓶 颈 问题 能 用 于 解决 获得 相关 连续 流 形 
( 维 数 削 减 )， 如 Chechik (2004) 对 于 高 斯 变量 所 示 ， 或 者 如 下 一 节 根 据 Chigirey and Bi- 
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alek(2004) 所 讨论 的 那样 。 
10.20 数据 的 最 优 流 形 表 达 


在 第 7 章 中 ， 我 们 从 正则 化 的 角度 使 用 光谱 图 理论 讨论 了 数据 的 非 监督 流 形 表 达 。 在 这 一 
节 中 ， 我 们 回顾 同样 的 问题 ， 但 这 一 次 我 们 从 信息 论 的 角度 来 达到 这 -- .点 。 更 具体 地 说 ， 这 里 
采用 的 方法 来 自 于 Chigirev and Bialek(2004) ， 它 建立 在 如 下 的 理解 上 : 

将 维 数 瀑 减 视 为 数据 压缩 问题 可 以 获得 分 析 上 的 利益 

数据 表达 的 Chigirev-Bialek 方法 实际 上 是 前 一 节 讨 论 的 信息 瓶 颁 方法 的 明智 的 应 用 。 
视 为 数据 压缩 的 维 数 削 减 : 基本 公式 

从 第 7 章 的 讨论 我 们 回顾 到 ， 从 直观 上 ， 流 形 是 指 - 一 个 租 入 在 m - 维 欧 几 里 得 空间 中 的 
k - 维 连续 区 域 〈 例 如 ， 一 个 曲线 或 一 个 曲面 )， 其 中 & 是 小 于 和 的。 在 数据 的 流 形 表 达 中 ， 我 
们 想象 流 形 维 数 低 于 数据 维 数 。 尤 其 这 个 流 形 “几乎 完美 ”地 描述 了 数据 ， 因 为 不 可 避免 地 存 
在 加 性 噪声 和 其 他 形式 的 数据 退化 。 

令 W 记 一 个 维 数 为 上 的 流 形 ，gqw (由) 记 流 形 上 点 的 概率 密度 函数 ; u 表示 这 样 的 一 个 点 。 令 
X 记 一 个 m 维 的 随机 数据 向 量 ，m 大 于 有 上， 这 实际 上 暗示 了 由 X 表示 的 数据 集合 % 是 稀 玖 的 。 
而 且 ， 正 由 于 数据 集合 的 稀疏 性 使 得 其 非 监督 表示 成 为 一 个 具 挑 战 性 的 任务 。 令 qal Xalo 
给 定数 据 集 时 流 形 上 点 的 条 件 概 率 密度 函数 。 因 此 ， 随 机 映 册 

Pat X— qua Cp | XD (10. 173) 

描述 了 从 x Blu BRS. 

流 形 是 由 (M, Pu? 表示 的 ， Akaa T ARAN 小 于 可 靠 的 表达 ”， 证 实 了 上 面 所 做 
的 相似 备注 。 从 另 一 个 途径 ， 可 以 说 记 流 形 t 的 一 个 点 的 向 量 u 是 数据 点 x 的 失真 版 本 一 一 因 
此 需要 一 个 记 为 d(x,4) 的 距离 测量 。 为 了 简化 问题 ， 我 们 对 这 一 测量 采用 欧 几 里 得 距离 消 数 ， 
如 下 所 示 : 


d(x,y) = | x— uyl (10. 174) 
这 是 通常 所 使 用 的 距离 。 因 此 期 望 失真 被 定义 为 双重 多 维 积分 
Haam] = | [> p, Daul x p l ?dxdp (10. 175) 


其 中 p (x) RHE EY A ERO HPE E A x 来 表示 。 
式 (10. 175) SE BH FE A — RS TTT AB EH E R 
互信 息 ， 定 义 为 : 


gt = | | 2 Oqu Cp log( MEP ) dap (10. 176) 
aoa yf ex <a ae e SEY 
联合 pdf 


当 对 数 是 以 2 为 基数 时 ， 这 一 互信 息 定义 了 将 数据 点 x 编码 到 流 形 上 点 所 需要 的 字 位 的 个 
数 。 此 外 ， 通 过 将 维 数 削 减 视 为 数据 压缩 问题 ，I(U; M) 定义 了 给 定数 据 向 量 x 作为 输入 时 
需要 传输 压缩 数据 u 的 频道 “容量 ”。 

当 放 在 一 起 看 时 ， RO te 两 个 基本 问题 的 权衡 : 

L 关于 数据 的 一 个 “可 靠 的 ” 流 形 表 达 ， 需 要 最 小 化 式 (10. 175) 的 期 望 失真 。 

2. FA eH, HE—* “HH” SEREMURE LMANRETT A. BERK 
(10. 176) 定 义 的 互信 息 。 

为 了 解 这 一 权衡 ， 我 们 引入 最 优 流 形 的 概念 (Chigirev and Bialek, 2004): 
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给 定数 据 集 红 和 频道 容量 ICA; M)， 如 果 下 面 的 两 个 条 件 得 到 满足 则 流 形 M 被 称 为 数据 
集 X 的 最 优 表达 : 

Gi) HARRELL, p) 被 最 小 化 。 

(ii) 仪 由 频道 容量 IE; MD 定义 的 字 位 数 需 要 用 于 表示 数据 点 x。 

定义 最 优 流 形 的 男 一 个 途径 ， 如 下 所 示 : 


流 形 机 是 最 优 的 ， 如 果 频 道 容 量 IA; MW 在 期 望 失 真 固定 在 某 个 预先 指定 的 值 时 最 大 化 。 


不 管 哪 一 种 途径 ， 我 们 都 面 对 速 率 失 真理 论 中 的 问题 。 根 据 10. 19 市 的 讨论 ， 由 于 这 一 问 
题 是 约束 优化 问题 ， 我 们 引入 拉 格 肛 日 梯子 人 来 说 明 期 望 失真 和 频道 容量 之 则 的 权衡 ， 如 下 
FR AR : 

F(M,Py) = ELd(x.p) ] HAL; M) (10.177) 
为 了 找到 最 优 流 形 ， 必 须 最 小 化 这 一 函数 。 

要 从 分 析 术 语 上 来 实现 最 小 化 ， 我 们 需要 参数 化 流 形 。 根 据 10. 19 Ths BAA. Gl 
人 瓶 颈 向 量 T， 它 的 一 个 样本 值 记 为 1:€ R'， 这 里 新 的 维 数 ! 小 于 或 等 于 数据 向 量 z 的 维 数 mm。 
我 们 也 引入 一 个 新 的 向 量 值 函 数 : 

y(t) : t—> M (10. 178) 
DOE SH aR OT IK Ae BSS a A tT BNI M. E mi m E R r O IE M 的 一 
个 “描述 符 ”。 假 设 r(b 的 维 数 和 数据 点 x 的 维 数 相 同 ， 因 此 可 以 用 平方 欧 几 里 得 距离 
xp C(t) ?作为 使 用 流 形 M 表达 数据 集 % 时 产生 的 失真 的 新 的 测量 

根据 刚刚 讨论 过 的 流 形 参 数 化 ， 我 们 重新 将 两 个 基本 公式 (10. 175) 和 式 (10. ON 
为 新 的 形式 : 





Elay] = | | px Goan Ct] | x— Y | dxdt (10. 179) 
(XT) = | [Px Gdanx(t] o log( 22 LEP) axat (10. 180) 
相应 地 ， 式 (10. 177) 的 函数 下 重新 写 为 新 的 形式 : 
FOCO ,gnx Ct|x)) = ELCt|x, y(t) ] HAI CXT) (10. 181) 
在 后 一 公式 中 期 望 失真 和 频道 容量 都 是 由 (4 刀 ，Pu } 描述 的 流 形 的 固有 性 质 ， 且 这 些 性 质 在 再 
BRUNE EA. 
通过 式 (10.179) 和 式 (10. 181)， 现 在 可 以 寻找 最 优 流 形 。 通 过 应 用 下 面 两 个 优化 条 件 来 
KM: 
OF 一 0 ,对 二 固定 的 gux(t|x) (10. 182) 
Oy (t) 9 T|X 
oF =o ,对 于 固定 的 Y(t) (10. 183) 
qrix (t |x) 


因此 ， 应 用 条 件 1， 获 得 : 
px(xX)orxCtix) C— 2x + 2Y(t))dx = 0 


这 导致 下 面 的 方程 对 ， 从 概率 术语 上 讲 它 们 是 相 容 的 : 
WER 
YD = p] xpxCoanxCtlodx (10. 184) 


qr (t) = | px (xX) qrix (| x) dx . (10. 185) 
方程 对 的 推导 仅仅 从 函数 下 的 期 望 - 失 真 分 量 而 来 ， 因 为 仅 有 这 一 分 量 依赖 于 r 一 一 因此 缺 


ww ai bbt.com TWOOO00 





352 


“第 10 章 信息 论 学 习 模 型 


“bf Fit BAA FET A. 
”然而 ， 当 继续 应 用 式 (10. 183) 定 义 的 第 二 个 最 优 条 件 时 ， 我 们 必须 认识 到 这 一 最 优化 包含 
了 条 件 grlx(tlx) 在 下 述 约 束 下 的 所 有 可 能 值 ， 


| anx(tlodt= 1, 对 于 所 有 ax 


该 约束 仅仅 是 需要 在 曲线 gr|x(t|x) 下 的 区 域 是 单位 1， 这 是 每 一 个 概率 密度 函数 的 基本 性 质 
为 了 满足 这 一 附加 约束 ， 我 们 对 所 有 x 引入 新 的 拉 格 朗 日 乘 子 Bx) 并 因此 扩展 函数 下 的 定义 
来 获得 : 

FAD tD 一 | | { pean tL 90 xy 


二 Apx (xX) grix Ct! x) log( wey e x) ) 


其 中 ogy (t) MTR C10. 185) 中 定义 的 那样 。 
因此 ， 引 用 式 (10. 183) 的 第 二 个 最 优 条 件 到 隔 数 下 的 这 一 新 的 形式 中 并 且 通 过 式 
(10. 185) 来 简化 项 ， 4 


| x— y(t) ||? + log( ala) POD = 


+ BOD ¢nx C| X) didx (10. 186) 





qT Ct) Àp x (X) 
现在 ， 令 
Bix) __ 
Toa (xy 一 198Z x) (10. 187) 
并 且 对 于 期 望 条 件 gr|x(t|x) 解 结果 方程 ， 得 到 第 二 个 公式 对 ， 它 们 在 概率 术语 上 也 是 相 容 的: 
— gr (t) 1 EF 
anix(t|x) = sexp(— Il x— 7c) II”) (10. 188) 
和 
Z(x,A) = | wbexp( 一 过 | x — y(t) ||?) at (10. 189) 
函数 Z(x，)) 扮 演 了 归 一 (Pw) 函数 的 角色 ， 式 (10. 188) 中 包含 了 该 项 保证 了 加 于 gr k 
约束 得 到 满足 。 


式 (10. 184) 、 式 (10. 185) 、 式 (10. 188) 和 式 (10. 189) 在 非 监督 方式 下 描述 了 数据 表达 的 最 
优 流 形 。 该 描述 自然 需要 连续 概率 密度 函数 px OMAR 
离散 过 程 

然而 ， 在 实际 上 ， 我 们 仅 有 记 为 (2). HURRAY, 其 中 N 是 样本 大 小 。 根 据 这 一 实 
际 情况 ， 我 们 引信 离散 通 近 : 


px Cx) ~ Dx) (10. 190) 
其 中 8(') 记 Dirac delta 函数 。 相 应 地 ， 通过 下 面 的 离散 集 来 模型 化 流 形 .4L: 
JT = (但 } 六 1 (10. 191) 


然后 ， 注 意 到 瓶颈 向 量 了 的 样本 值 t 仅 仅 显示 为 函数 r(t) 、 条 件 gr|x(t|x) 和 边缘 gr (DY A 
量 ， 我 们 可 以 用 这 三 个 连续 函数 的 各 自 的 离散 部 分 7;，g; (x;)，、g; BREEN, RE PER i 和 
j 用 于 强调 离散 过 程 。 为 了 完成 离散 过 程 ， 引 入 a 来 记 欧 几 里 得 空间 R” 的 坐标 索引 ，。 

现在 有 了 流 形 的 离散 模型 ， 目 标 是 在 迭代 方式 下 开发 用 于 计算 模型 的 算法 。 为 了 该 目的 ， 
首先 注意 式 (10. 188) 和 式 (10. 189) 分 别 定义 了 gr|x(t|x) 和 ZCrz，4)， 对 他 们 各 有 的 变量 t 和 x 
都 是 凸 函数 ， 拉 格 朗 日 乘 子 1 是 预先 定义 的 参数 。 从 计算 上 讲 ， 这 两 个 公式 是 流 形 的 离散 模型 
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的 困难 部 分 。 

为 了 更 进一步 说 明 如 何 能 够 降低 这 一 计算 困难 ， 考 虑 如 图 10. 23 所 示 的 两 个 凸 集 4 入。 将 最 小 
化 它们 之 间 的 欧 几 里 得 “ 焉 离 ”; 这 一 距离 定义 为 &Cz，y， 其 中 工 和 y 分 别 是 集合 & 和 多 中 任意 的 
两 个 点 。 最 小 化 欧 几 里 得 距离 的 直观 方法 如 下 所 述 (Csiszat and Tusnady, 1984); 


固定 集合 人 中 的 点 xX， 导 找 集合 也 中 最 靠近 它 的 点 y。 然 后 国定 新 发 现 的 点 v， 在 集合 A 中 寻 
找 最 靠近 它 的 点 x, 


如 果 用 往返 于 集合 4 和 久之 间 的 方 
式 来 延续 这 一 过 程 ， 正 如 图 10. 23 所 \ 一 一 
示 ， 那 么 距离 dC(x，y) 将 随 着 每 次 先 集合 — ee 集合 
代 而 逐渐 变 小 。 这 正 是 在 最 小 化 速率 J 
失真 函数 的 Blahut-Arimoto 算法 
(Blahut, 1972; Arimoto, 1972) 中 
所 做 的 那样 。 式 (10. 188) 和 式 (10. 189) 图 10.23 HBAS GRAABZ le ce eA A 
只有 和 速率 失真 函数 的 特征 中 发 现 的 那些 具有 相同 的 数学 形式 (Cover and Thomas, 2006), M 
且 ， 在 Csiszar and Tusnady(1984) 中 证 明了 在 两 个 止 集 % 和 多 之 间 的 交替 过 程 将 收敛 ， 如 果 这 
Pi BB LH TES HERM OR A Td BO 
计算 数据 的 最 优 流 形 表 示 的 选 代 算法 

根据 这 些 可 靠 的 结果 ， 我 们 可 以 继续 构成 计算 流 形 刀 的 离散 模型 的 迭代 算法 。 令 n 记 迭 代 算法 
的 时 间 步 。 然 后 ， 利 用 式 (10. 184)、 式 (10. 185)、 式 (10. 188) 和 式 (10. 189) 的 离散 版 本 并 采用 工 - 扣 
离散 集合 totoot) 来 模型 化 由 连续 变量 t 表达 的 流 形 ， 我 们 现在 就 构成 了 基于 下 面 4 个 公式 集 
的 期 望 算 法 ， 其 中 时 间 步 n = 0,1,2,…，, HRI) j = 1,2,*…*,L(Chigirev and Bialek ,2004) ; 


p; n) 一 Zp Cia) (10. 192) 
IN Gea 
ee eee lS a Dias 
Y;a (n) = A N Dy Tied in) v0 1 ,2 ，… ,7 (10. 193) 
2% don) = >) p; (nexp(— + | x — y I?) (10. 194) 
p; (Xisn 十 1) = Pi exp(— a | x; — y; Cn) || 2) (10. 195) 
: Z(x; AN) A É 


其 中 zi,, 为 数据 向 量 x; 的 第 a 个 元 素 。 
为 了 初始 化 算法 ,我 们 从 数据 集 % 中 随机 选取 工 个 上 挟 且 令 : 


Vi = Lij | 
van 1 j a 1 ,2 ,二 (10. 196) 
p; (0) 一 了 


为 了 终止 计算 , 令 。 记 流 形 点 将 要 位 于 的 精确 度 。 在 时 间 步 长 为 x 时 ,一旦 满足 下 述 条 件 ， 算 
法 就 得 终止 
max | Y; (a) —¥,(n—l)|<e 
余下 需要 设置 的 参数 是 拉 格 朗 日 乘 子 1， 它 决定 了 包含 在 函数 工 中 的 期 望 失真 和 频道 容量 之 间 
的 权衡 。 参 数 处 于 设计 者 的 控制 下 ， 依 赖 于 这 样 的 权衡 是 如 何 实现 的 。 
实际 考虑 | 
st (10. 192) 到 式 (10. 195) 的 计算 数据 的 最 优 流 形 表达 的 算法 ， 是 设计 于 约束 流 形 点 和 原始 
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数据 空间 点 之 间 的 互信 息 。 这 一 约束 是 关于 这 两 个 空间 中 所 有 的 可 道 坐 标 变换 不 变 的 可 能 
在 某 种 隐 含 意义 上 增强 流 形 的 平滑 性 (Chigirev and Bialek, 2004), 从 理论 框架 上 来 看 ， 利 用 
证 息 论 方法 的 平滑 流 形 的 证 明 可 能 不 如 根植 于 正则 理论 的 方法 。 虽 然 如 此 ,数据 的 最 优 流 形 表 
达 从 实际 上 工作 满意 。 

更 重要 的 是 ， 不 像 其 他 维 数 削减 方法 〈 人 例如， 第 7 章 讨论 的 基于 正则 化 光谱 图 理论 的 Bel- 
kin-Niyogi 方法 )， 本 廊 中 讲述 的 信息 论 算法 的 收敛 时 间 对 样本 大 小 N 是 线性 的 。 这 一 算法 的 
局 度 期 望 特征 属于 描述 流 形 的 公式 的 固有 凸 性 ， 使 得 其 应 用 更 具 吸 引力 ， 尤 其 当 我 们 处 理 实际 
中 大 型 数据 集 的 维 数 削减 的 困难 任务 时 更 是 如 此 。 

算法 的 另 一 高 度 期 望 特征 包括 下 面 两 点 : 

。 所 考虑 的 流 形 的 维 数 知识 是 不 需要 的 。 

。 这 一 算法 很 好 适用 于 处 理 稀疏 数据 的 维 数 亨 减 ， 这 一 点 是 重要 的 ， 因 为 在 高 维 空间 中 

所 有 的 数据 集 如 是 典型 稀疏 的 。 


10.21 计算 机 实验 : 模式 分 类 


该 计算 机 实验 利用 了 两 个 算法 的 组 合 : 首先 是 用 于 非 监 督 聚 类 的 输入 数据 的 最 优 流 形 表 
达 ， 其 次 是 采用 在 第 3 章 讲述 过 的 监督 分 类 的 最 小 均 方 (LMS) 算法 。 通 过 不 同 的 应 用 ， 这 两 
个 算法 分 享 了 两 个 有 用 的 性 质 ， 有 效 性 能 和 计算 高 效 。 

为 了 人 研究 组 合 “ 最 优 流 形 - LMS” 算 法 的 性 能 ， 我 们 再 次 从 图 1. 8 的 双 月 结构 中 随机 提取 
数据 ， 甚 双 月 之 间 的 垂直 分 隔 固定 为 d= — 6, K 10. 24 给 出 了 实验 结果 ， 通 过 双 月 之 间 近 平 
相等 共享 的 20 个 中 心 来 计算 。 在 用 300 个 数据 点 进行 监督 训练 下 算法 构造 的 决策 边界 将 从 双 
月 中 提取 的 数据 “几乎 无 瑕 ”的 方式 分 隔 开 。 更 精确 地 ， 在 2 000 个 测试 数据 点 中 有 6 个 分 类 
错误 ， 说 明了 误 分 类 错误 率 为 0.3%。 对 双 月 配置 的 相同 设置 而 言 ， 这 一 性 能 接近 于 支持 向 量 
机 (SVM) 的 无 误 性 能 ， 这 在 6.7 节 中 已 经 介绍 过 。 从 这 一 比较 中 得 到 的 重点 是 在 部 分 SVM 
的 计算 复杂 度 的 基础 上 ， 最 优 流 形 - LMS 算法 达到 了 和 SVM 接近 的 性 能 。 








et 





图 10.24 图 1.8 中 双 月 构造 的 模式 分 类 ， 使 用 最 优 流 形 十 LMS 算法 ， 距离 4 一 一 6， 有 20 个 中 心 


10.22 小结 和 讨论 
在 篇 幅 较 长 的 本 章 中 ， 我 们 将 香农 信息 论 作 为 研究 自 组 织 或 者 非 监 督学 习 的 多 个 重要 方面 
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的 基本 统计 工具 来 建立 一 一 这 是 真正 值得 注意 的 成 来 。 
作为 自给 织 日 标 质数 的 互信 息 


在 输入 和 输出 随机 过 程 之 间 的 香农 互信 息 ， 具 有 一 - 些 唯 一 的 性 质 ， 这 些 性 质 使 其 可 作为 自 组 
织 学 习 的 目标 函数 ， 从 而 被 优化 。 事 实 上 ， 一 些 重要 的 自 组 织 原 则 在 本 章 的 讨论 中 已 经 出 现 过 : 

1. Infomax 原则 ， 这 包含 了 最 大 化 神经 网 络 的 多 维 输入 和 输出 耐量 之 间 的 互信 息 。 这 一 愿 
则 制定 了 自 组 织 模型 和 特征 映射 的 开发 框架 。 

2. 最 小 宛 余 原则 ， 这 基本 上 是 另 一 种 最 大 化 网 络 的 输入 和 输出 之 间 的 互信 息 导 致 元 余 最 
小 化 的 说 法 。 

3. Imax 原则 ， 这 是 最 大 化 一 对 神经 网 络 的 单一 输出 之 间 的 互信 息 ， 这 对 神经 网 络 是 由 两 
个 空间 位 移 多 维 输入 向 量 所 驱动 的 。 该 原则 非常 适合 于 图像 处 理 ， 目 标 是 发 现 带 噪声 传 感 的 输 
人 在 空间 和 时 间 上 表现 的 相干 性 。 

4. Imin 原则 ， 这 是 最 小 化 一 对 神经 网 络 的 单一 输出 之 间 的 互信 息 ， 这 对 神经 网 络 是 由 两 个 空间 
位 移 多 维 输入 向 量 所 驱动 的 。 该 原则 在 图 像 处 理 中 的 应 用 旧 标 在 于 最 小 化 同一 环境 中 两 幅 相 关 图 像 
之 间 的 空间 时 间 相 干 ， 图 像 是 由 具有 正 交 性 质 的 一 对 传 感 硕 获得 的 。 
独立 分 量 分 析 的 两 个 基本 路 径 

本 章 中 讨论 的 另 一 个 重要 的 课题 是 独立 分 量 分 析 (ICA)， 它 为 使 得 一 个 随机 向 量 的 分 量 
尽 可 能 地 统计 独立 提供 了 数学 基础 。 这 一 原则 的 应 用 在 于 解 育 源 分 离 (BSS) 问题 ， 其 必要 条 
件 如 下 所 示 : 

© 信号 的 统计 独立 源 。 

。 非 高 斯 源 信 号 ， 除 非 被 允许 是 高 斯 分 布 的 。 

。 平方 混合 矩阵 ， 这 意味 着 源 信 号 和 观测 在 数字 上 是 相同 的 。 

。 无 品 混 合 模型 。 

基本 上 ， 推 导 ICA 算法 有 两 种 途径 : 

1. 独立 分 量 分 析 原 则 (Comon, 1994), Bw EXT SER Ks 这 一 原则 导致 依赖 于 如 下 
两 个 分 布 的 期 望 代价 函数 的 建立 : 

。 分 离 器 输出 的 参数 概率 密度 函数 。 

© 相应 的 阶乘 分 布 。 

独立 分 量 分 析 原 则 的 应 用 在 两 个 著名 算法 中 得 以 表明 : 

G) ICA 的 自然 梯度 算法 ， 这 是 根据 Amari 等 (1996). 

Gi) ICA 算法 的 Infomax 原则 ， 这 是 根据 Bell and Sejnowski (1995). 

这 两 个 算法 的 主要 优点 是 它们 能 够 适应 环境 的 统计 变化 。 如 果 使 用 了 正确 类 型 的 激活 唔 
数 ， 它 们 也 能 够 具有 重 棒 性 ， 这 依赖 于 原始 信号 是 超 高 斯 分 布 的 或 是 亚 噩 斯 分 布 的 。 

2, ZK AM (Comon,1994). MAE S RET GLE RH AEN Me. — e 
Ay a Be fy oe Hah ae FE JM SE. RS FastICA 算法 的 建立 ， 
这 是 根据 Hyvärinen and Oja(1997), FastICA 算法 的 有 吸引 力 的 特征 包括 : 

。 收敛 的 快速 速率 。 

。 无 需 学 习 率 参数 。 

。 和 鲁 棒 性 ， 无 需 源 是 否 超 高 斯 或 者 亚 高 斯 分 布 的 信息 。 

。 实现 简单 性 。 

然而 ， 由 于 缺少 学 习 率 参 数 ，FastICA 算法 不 能 跟踪 时 间 变 化 混合 。 

在 三 个 不 同 的 ICA 算法 中 存在 的 一 个 问题 ， 如 下 搞 述 : 
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在 一 个 大 的 ICA 框架 下 ， 互 信息 、 和 非 高 斯 性 之 间 有 上 县 有 什么 联系 ?在 没有 采取 某 种 去 
相关 约束 的 情况 下 。 


为 了 处 理 ICA 理论 的 这 一 基本 问题 ，Cardoso(2003) 提供 了 一 个 了 不 起 的 数学 理解 ， 在 此 范围 
内 统计 相关 、 相 关 性 、 高 斯 性 等 问题 得 到 了 考虑 。 下 面 是 Cardoso 的 论文 中 报告 的 主要 结果 : 


当 放 松 了 预 白化 的 需要 后 ， 相 对 炉 能 够 在 线性 变换 下 被 分 解 为 两 个 项 的 和 ; 一 项 表示 分 量 的 去 
相关 ， 另 一 项 表示 其 非 高 斯 性 。 


通过 限制 到 线性 变换 ，ICA 实际 上 人 允许 非 高 斯 分 量 仪 在 边缘 分 布 上 表示 。 

关于 ICA 和 BSS 的 更 多 的 评论 是 ， 这 两 个 概念 彼此 如 此 相近 以 至 于 使 用 其 中 一 种 时 实际 
上 意味 着 另 一 种 。 更 重要 的 是 ，ICA 和 BSS 构成 了 一 个 已 经 扩大 的 领域 ， 在 理论 上 和 实际 应 
用 上 都 是 如 此 。 这 一 声明 已 经 通过 一 些 给 人 印象 深刻 的 主题 得 到 了 证 明 ， 这 些 主 题 中 的 每 一 个 
都 有 其 自身 的 实际 的 与 众 不 同 的 方向 。( 参 看 注释 和 参考 文献 中 的 注释 22。) 
相关 ICA 

本 意 中 讨 论 过 的 男 一 个 ICA 相关 的 原则 是 相关 ICA (Kan, 2007; Haykin and Kan, 
2007) 。 该 新 原则 将 Infomax 和 Imax 原则 组 合 起 来 最 大 化 通过 一 对 具有 相同 维 数 的 多 输入 多 输 
出 (MIMO) 网 络 的 输出 的 时 空 相干 ， 当 这 一 网 络 是 由 空间 位 移 数 据 流 驱 动 时 。 利 用 现实 数 
据 ， 在 自然 声音 的 听觉 编码 中 发 现 两 个 重要 结 采 : 

(i) 相关 ICA 能 够 展示 调幅 调节 ， 因 此 支持 包含 听觉 系统 的 包 络 处 理 概念 。 

GD 相关 ICA 能 够 学 习 响 应 于 模拟 分 层 听 觉 系 统 方式 的 声音 刺激 的 滤波 胡 的 两 个 接连 处 
理 层 的 变化 速率 。 
信息 瓶颈 
在 一 种 或 男 一 种 形式 下 ， 这 里 所 总 结 的 自 组 织 的 信息 论 原则 都 是 建立 在 炉 和 互信 息 概 念 上 
的 ， 它 们 是 香农 经 典 信息 论 的 基础 。 在 本 章 的 后 面部 分 ， 我 们 利用 速率 失真 理论 CARR 
的 另 一 个 基本 概念 ) 来 构成 本 章 的 最 后 一 个 原则 : 信息 瓶颈 方法 (Tishby 等 ，1999; Slonim 
等 ，2006)。 要 强调 的 这 一 方法 的 两 个 重要 方面 如 下 所 示 : 

L 信息 瓶颈 方法 不 是 统计 模型 算法 ; 相反 ， 它 是 寻找 能 够 解释 内 在 结构 和 给 定 变量 集 之 
间 的 统计 相关 的 复杂 数据 的 相关 表达 的 方法 。 

2. 尽管 该 方法 假设 在 输入 向 量 X 和 输出 向 量 Y 之 间 的 联合 概率 分 布 px.y (x，y)， 在 实际 
中 它 被 应 用 到 基于 有 限 样 本 的 经 验 分 布 上 。 这 一 插入 方法 在 Shamir 等 〈2008) 中 得 到 了 证 明 ， 
其 中 提出 了 关于 学 习 、 泛 化 和 一 致 性 的 定理 。 

有 了 信息 瓶颈 方法 ， 我 们 利用 其 推导 数据 的 最 优 流 形 表达 (Chigirev and Bialek, 2004), 
实现 这 一 表达 的 该 算法 具有 一 些 有 用 的 性 质 : 

。 算法 的 计算 复杂 度 是 线性 的 ， 它 是 关于 训练 样本 大 小 的 。 

。 算法 不 需要 流 形 维 数 的 知识 。 

。 算法 非常 适合 于 处 理 高 维 数 据 ， 这 些 高 维 数 据 往往 是 稀疏 的 。 

作为 结束 评论 : 在 本 节 中 总 结 的 内 容 的 宽度 和 深度 是 关于 香农 信息 论 的 值得 注意 的 影响 的 证 
明 ， 香 农 信息 论 一 开始 是 用 于 通信 系统 的 ， 现 在 已 经 对 非 监 督学 习 模 型 和 其 应 用 具有 重要 影响 。 


注释 和 参考 文献 


1. 香农 信息 论 
想 进 一 步 了 解 信息 论 ， 请 参考 Cover and Thomas(2006) 相关 内 容 ; 如 果 想 参考 信息 论 发 展 的 论文 集 〈 包 括 
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1948 年 香农 的 经 典 论文 )， 可 参考 Slepian(1973)。 香 农 的 论文 经 过 一 些小 的 改动 被 重 版 在 Shannon and 
Weaver(1949) 和 Sloane and Wyner(1993) 的 书 中 。 
想 对 在 神经 处 理 中 的 信息 论 原则 作 一 个 简短 的 回顾 ， 可 参考 Atick(1992)。 想 从 生物 的 角度 来 理解 信息 论 方 
法 ， 可 参考 Yockey(1992), 
. 信息 论 与 感知 之 间 关 系 的 文献 综述 可 以 参考 Linsker(1990b) 和 Atick(1992)。 
. W 
信息 论 中 的 术语 “ 炉 ” 有 的 名 字 是 从 热力 学 中 的 粮 入 生来 的 ; 热力 学 中 的 炳 由 
H =— ky >) Palog Pu 


定义 ， 其 中 ks 是 Boltzmann 常数 ，p。 是 系统 处 于 状态 a 的 概率 〈 见 第 11 章 )。 除 了 系数 ks 之 外 热力 学 中 
Ay H 的 公式 与 式 (10.8) 给 出 的 箭 的 定义 在 数学 形式 上 是 一 致 的 。 

RAB R A 

Shore and Johnson(1980) eP HE BH Ze in F EN TF Be K A E E E A : 


以 约束 形式 给 出 先 验 知识 ， 在 满足 这 些 约束 的 分 布 中 根据 “ 相 容 性 公理 ”《consistency axioms) 能 够 选 
择 唯一 的 分 布 ; LAB—-APAHRAMMEL. 


相 容 性 公理 包含 四 个 部 分 ， 

. 唯一 性 ;结果 必须 是 唯一 的 。 

. 不 变性 ， 坐标 的 选择 应 当 不 影响 结果 ， 

. 系统 独立 性 ;无 论 用 不 同 密度 或 用 联合 密度 来 解释 独立 系统 的 独立 信息 都 应 应 该 是 无 关 紧 要 的 。 

. 子 集 独 立 性 : 无 论 用 分 离 的 条 件 密度 或 用 完整 的 系统 密度 来 处 理 独立 的 系统 状态 子 集 都 应 该 是 无 关 紧 
要 的 。 
Shore and Johnson(1980) WEAR AM St RE Kullback-Leibler 散 度 同样 满足 相 容 性 公理 。 

. Pythagorean 分 解 

证 明 式 (10. 43) 的 分 解 ， 可 以 进行 如 下 操作 。 由 定义 有 


Day hey = | 和 cplog ( 2) dx = D pxo log( Z) 。 ( Px) ay 


aS = E a 





pu (¥) (x) Pu lx) 


= Px (x) i px CX) 
| px C0log( 7 =) ax + y _px Olog( Petey ) dx 








= Dp Fx + |" pr (Wlog( PES) ax (A) 


从 Bx (OA pus) 的 定义 得 到 


T3 Cx) 2. re 
og( Pa )) 一 oe x |- 3 iog( 天 


Pu (x) =1 Pu (x:) 
[| bo, (2 
i=] 

令 工 记 式 (A) 最 后 一 行 中 的 积分 ， 可 以 写成 
px (x) Ilex (xi) 
I =j px (x)log( bx) dx 一 | px (x) log | - dx 
I Cz; ) 
@ ee (i) = = | px, (xi) 区 
= 全 E) I px (x) dx" ) dz = 之 。 lel <5 ) Bx, (xi) de: (B) 


上 起 最 后 一 行使 用 了 式 (10. 39) 的 定义 。 式 〈B) 的 积分 是 Kullback-Leibler MBE» Dr, In iS 1 ,2 ,… ,m 
为 了 把 式 (B) 写成 最 终 的 形式 ， 注 意 函 数 fx, (X) 下 面 的 面积 是 1，、 因 此 可 写 为 


IL, (z;) 
IT (zi) 





m = m A { ; 
i= D TI x, x) (tog( = Z ) az: ) dx” = oe fe pce 人 Jax Ds, ley (C) 
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其 中 在 第 一 个 等 式 中 利用 了 定义 dx 一 dzidx”， 如 同 在 10.5 节 描 述 的 一 样 。 因 此 ,将 (C) 代 入 (A)， 我 们 得 
到 期 望 的 分 解 ， 
Digs Deise T Die 

6. AH 
单词 系 词 是 拉丁 语 的 “连接 ”或 “ 键 ” 的 意思 ; 在 语法 和 逻辑 上 经 常用 来 表示 连接 主题 和 判定 的 命题 的 部 
分 (Nelsen，2006) 。 在 数学 文献 中 ， 这 一 术语 由 Sklar(1959〉 在 以 他 的 和 名字 命名 的 定理 中 首次 运用 :; Sklar 
定理 通过 “联合 ”一 维 分 布 隆 数 描述 了 多 变量 分 布 阻 数 的 形成 。Nelsen 的 书 提供 了 关于 系 词 的 有 趣 的 历史 
观点 且 描 述 了 其 基本 性 质 ， 提 供 了 构造 系 词 的 方法 以 及 在 模型 化 和 统计 相关 学 习 中 系 词 的 规则 。 关 于 系 词 
的 详细 文献 和 相关 问题 在 Nelsen 的 书 的 最 后 给 出 。 

7. Nadal and Parga(1994，1997) 还 讨论 了 最 大 互信 息 和 宛 余 减少 之 间 的 关系 ， 得 到 同样 的 结果 : 神经 系统 的 
输入 向 量 和 输出 向 量 之 间 的 互信 息 的 最 大 化 也 就 导致 数据 减少 。Haft and van Hemmen(1998) 讨 论 视 网 膜 的 
最 大 互信 息 滤 波 器 的 实现 情况 。 结 果 表 明 ， 像 视网膜 这 样 的 感觉 系统 所 产生 的 内 部 环境 表示 ， 宛 余 性 对 获 
得 噪声 鲁 棒 性 是 最 根本 的 。 

8. 典型 相关 分 析 
典型 相关 分 析 理 论 由 Hotelling(1935，1936) 首 先 提出 。 为 了 讲述 这 一 理论 ， 我们 遵循 Anderson(1984) fy 2b 
理 方 式 。 
考虑 由 m 个 分 量 组 成 的 0 -HENE X, Hmm AURREREN S XIRA AATE X MX, 
其 分 量 个 数 分 别 为 m, 和 ms 。 相 应 地 ， 协 方差 失 阵 三 被 分 解 为 

本 X, +] (ELK. X?] ELX. XI) fe. Es 
a J= (Z) ig p a bey | 

其 中 

Xe = Es 
典型 相关 分 析 (CCA) 的 目标 是 构成 子 向 量 X。 AX, 的 线性 变换 使 之 清楚 地 以 最 大 的 方式 展现 变换 后 的 随机 
变量 之 间 的 交互 相关 。 为 此 ， 考 虑 线性 变换 

Y, = wi X, 
和 

Y, = wi X, 

其 中 Y AY, 都 是 0 -均值 随机 变量 ， 且 m Xl 向 量 w 和 ms X1 向量 ws 是 要 决定 的 基 向 量 。 由 于 Y。 的 倍 

WHY, 的 倍数 的 互相 关 孙 数 与 Y,、Y 自身 的 互相 关 函 数 是 相间 的 ， 因 此 可 以 要 求 权 向 量 W, AW, 这 样 选 

择 使 得 Y MY, 具有 单位 方差 。 这 一 要 求 导致 下 面 的 两 个 条 件 : 

1 = E[Y’?] = ELwiX, Xi w, | = Wi tu Wa (A) 








和 | 
1 = ELY?] = ELwiX,xX? w, ] = wi dw W: (B) 


有 了 上 述 的 引导 性 素材 ， 我 们 现在 可 以 说 明 手 头 的 问题 : 

寻找 权 向 量 W, 和 Ws ARKEMA BHR 

ECY,Y; ] = EEwi X, Xiw, | = wi Es w 
RAA (A) 和 B) 所 表示 的 两 个 条 件 。 
为 了 解决 约束 优化 问题 ， 我 们 利用 拉 格 郎 日 乘 子 法 ， 因 此 写 出 如 下 拉 格 朗 日 算 子 : 
FW. We) = wT Ew — pte WE Bia Wa — D — y W Ei Wy — 1) | 

其 中 心 Aly, 是 拉 格 朗 日 乘 子 ， 引 入 因子 1/2 是 为 了 简化 表达 。 对 W. 和 W， warhe BHA AI CW... W) 
并 将 其 结果 设 为 0， 得 到 如 下 一 对 方程 : 


Lo We — fla Daa Wa 一 0 (C) 
和 
Xa Wa 一 Lo Lp Wh = 0 (D) 
式 〈C) 和 D 的 左边 分 别 乘 以 WI 和 Wi ， 我 们 有 
we Las Ws — Ha Wa La Wa 一 0 (E) 
和 
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13. 
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wi Sy W, — tn Wh La» We = 0 CF) 
然后 ， 在 式 (CE) 和 CF) 中 分 别 调 用 式 CAD 和 CB) 的 条 件 ， 证 明 
pa = po = Wa Las Wo (G) 
其 中 我 们 已 经 用 了 关系 =>. Ak, GEMM ARS IW... W RAAR RTAS A 
值 ， 以 后 记 为 4。 


TH. 认识 到 Y。 AY, 的 方差 都 被 归 一 化 为 单位 1， 由 式 (CG) ARB HRT p 是 这 两 个 随机 变量 之 间 的 
典型 相关 。 

现在 的 关键 问题 是 : 如 何 决定 基 向 量 w。 和 w,? 利用 式 (C) 和 式 (D) ， 可 以 证 明基 向 量 W. 和 W, 分 别 由 一 对 
特征 方程 定义 。 


Ee! By By! Ee Wa = AW, (HD 
a ca 
C 

和 

Lis Do Ds Eo Ws = AW; (1) 

ee 
其 中 

A= (J) 

因此 可 以 陈述 如 下 : 


1. BC, 的 特征 值 4 等 于 典型 相关 的 平方 值 ， 相 应 的 特征 向 量 定 义 了 基 向 量 w, o 
2. 第 二 个 矩阵 C, 的 特征 值 * 也 等 于 典型 相关 的 平方 植 ， 相 应 的 特征 向 量 定义 了 第 二 个 基 问 量 ws。 
然而 ， 注 意 特征 方程 (G)、(H) 和 OD 的 有 意义 解 的 数目 受到 维 数 m, 或 ms 的 限制 ,无论 哪 一 个 都 十 较 
小 的 。 最 大 特征 值 , 产生 最 强 的 典型 相关 ; 下 一 个 特征 值 as 产生 第 二 强 的 典型 相关 ， 以 此 类 推 。 
这 里 所 描述 的 典型 相关 分 析 〈CCA) 可 用 于 揭示 两 个 相关 但 不 同 的 数据 集 之 间 的 二 阶 统计 相关 。 甚 至 ， 尽 
管 CCA 不 包括 高 阶 统计 ， 但 实际 中 它 经 常 工作 民 好 。 
从 式 (H) Al OD, 很 显然 典型 相关 分 析 包 含 了 主 分 量 作为 特例 ， 当 矩阵 C。 AC, 被 分 配给 一 个 共同 值 时 
发 生 ， 即 当 子 向 量 X 和 Xs 是 一 个 相同 的 向 量 时 ，。 
另 一 个 有 趣 的 是 ,在 Fyfe(2005) 中 ， 介 绍 了 关于 典型 相关 分 析 的 两 个 不 同 神经 执行 ， 得 到 了 人 工 和 实际 数 
据 模 拟 的 支持 。 
Uttley 的 Informon 
在 Uttley(1970) 中 考虑 负 信息 通 路 ， 通 过 最 优化 通路 中 输入 信号 与 输出 信号 之 间 的 互信 息 的 负 值 。 结 采 表 
明 ， 这 样 的 系统 在 调整 期 间 适 宜 变 成 输入 信号 集中 更 常 发 生 的 模式 的 判别 器 。 这 种 模型 称 作 informon, € 
与 Imin 原则 有 松散 关系 。 
模糊 Imin 处 理 器 
在 Ukrainec and Haykin(1996) 中 撕 述 的 系统 包括 一 个 后 探测 处 理 器 ， 它 利用 反射 器 灌水 道 的 水 陆 边 界 位 
置 的 先 验 知识 。 模 糊 处 理 器 结合 初始 探测 性 能 和 基于 视觉 的 边缘 检测 器 的 输出 以 便 有 效 地 去 除 错误 警报 ， 
从 而 使 系统 性 能 进一步 提高 。 
历史 注 记 
关于 盲 源 分 离 和 独立 分 量 分 析 的 两 篇 文章 在 文献 中 广为人知 : 
。 关于 育 源 分 离 问 题 (BSS) 的 Herault 等 (1985) 的 文章 利用 了 Hebb 学 习 。 
。 Comon(1994) 关于 独立 分 量 分 析 (ICA》 的 文章 首次 提出 了 这 一 术语 。 

关于 BSS MICA 的 详细 历史 记录 ， 包 括 一 些 其 他 的 早期 贡献 ， 参 看 Jutten and Taleb(2000). 


.自然 梯度 


使 用 7* D= CV D)wWrW 来 代替 通常 梯度 V D 解决 讶 源 分 离 问题 的 思想 在 Cardoso and Laheld(1996) 中 有 
详细 的 介绍 。 这 里 VY* DD 称 为 相对 梯度 ， 这 个 梯度 与 自然 梯度 是 相同 的 。 自然 梯度 是 从 信息 几何 的 观点 来 
定义 的 (Amari，1998; Amari 等 ，1996) 。 
RS = Ia 
例如 ， 在 n 维 黎 曼 空间 中 ， 向 量 a 的 平方 范 数 定义 为 

fal? = 2 Daga; 


1 一 1 j= 


其 中 gj ER Ss (A AB zi 9g 9" y Dn AY pa, Ej T Zur 表达 式 右边 总 是 正 的 。 该 表达 式 是 欧 几 里 得 平方 
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15. 


16. 


17. 


范 数 公式 
fall? = dja? 
i=l 


的 推广 。 关 于 黎 曼 空间 结构 的 讨论 ， 参 考 Amari(1987), Murray and Rice(1993) 和 Rosenberg(1997), 


. 超 高 斯 分 布 和 亚 高 斯 分 布 


考虑 随机 变量 X， 其 概率 密度 函数 由 px (EM, RP eX A. $ px (oT HÉR exp( 一 g(x)) 
来 表示 ， 这 里 g(z)? 是 工 的 偶 羡 数 ， 对 于 工 可 能 除 原 点 外 是 可 微 的 ，g(z) 对 工 的 导数 记 为 8 (>z)。 
如 果 当 0<z<<eo，gf(z)/z 是 严格 递减 的 ， 则 随机 变量 X 称 为 是 超 高 斯 的 。 例 如 可 能 取 g(x)== | xz|*，B<<2。 
另 一 方面 ， 如 果 随 机 变量 是 一 致 分 布 的 ， 或 者 g(z) 和 g(x)/zx 对 于 0<z<co 是 严格 递增 的 ， 则 随机 总 
E X 被 称 为 亚 高 斯 的 ， 例 如 ， 可 以 了 到 gaS |r|’, 8>. 
有 时 〈 也 许 有 些 滥用 的 方式 ) 使 用 随机 变量 的 峭 度 (kurtosis〉 符 号 作为 亚 高 斯 或 超 高 斯 的 指标 。 随 机 变 
量 X 的 峭 度 定义 为 ; 
x! 
Ke = Gn 
在 此 基础 上 ， 根 据 峭 度 K 为 负 或 为 正 ， 随 机 变量 X 分 别称 为 亚 高 斯 或 超 高 斯 的 。 
另 一 个 历史 注 记 
从 历史 上 看 ，Cardoso(1997) 第 一 个 从 理论 上 证 明 : 在 自然 梯度 算法 中 利用 正确 类 型 的 非 线性 激活 函数 解 
言 源 分 离 对 其 达到 收 伍 是 充分 的 。 
最 大 似 然 估计 
最 大 似 然 估计 具有 一 些 期 望 的 性 质 。 在 相当 普遍 的 条 件 下 ， 可 以 证 明 下 列 的 渐进 性 质 (Kmenta，1971): 
(i) 最 大 似 然 估计 是 一 致 的 。 令 L(98) 记 log 一 似 然 函 数 ，6; 记 参 数 向 量 8 的 一 个 元 素 。 偏 导数 oL/00, KH 
得 分 (score) 。 我 们 说 最 大 似 然 估计 是 一 致 的 ， 是 在 这 样 的 意义 下 : 6 的 值 ， 对 之 的 得 分 9L/39; 是 恒 
为 0 的 ， 随 着 估计 中 样本 大 小 趋 于 无 穷 从 概率 上 收敛 于 和 的 真 值 。 
Gi) 最 大 似 然 估 计 是 渐进 有 效 的 。 即 
= 
I. 


M 


lim =1, 对 于 所 有 + 


其 中 N 是 样本 大 小 , 6 是 6 的 最 大 似 然 估计 ，Is 是 逆 Fisher 信息 矩阵 的 第 i 个 对 角 元 素 。Fisher 信 


























息 和 矩阵 定义 为 
E| | E E E eae, 
e E lata | 
Ee E| a | 加 E| SF | 
其 中 m 是 参数 向 量 6 的 维 数 。 
Gi) 最 大 似 然 估 计 是 渐进 高 斯 的 。 即 随 着 样本 大 小 趋 于 无 穷 ， 最 大 似 然 估 计 8 的 每 个 元 素 假设 为 高 斯 
分 布 。 


实际 上 ， 我 们 发 现 最 大 似 然 估 计 的 大 样本 〈《 即 渐进 的 ) 性 质 在 样本 大 小 N 之 50 时 保持 得 很 好 。 

ICA 的 Infomax 的 原始 版 本 

式 (10. 127) 讲 述 了 ICA 算法 的 Infomax 的 原始 版 本 是 由 Bell and Sejnowski (1999) 导出 的 。 这 一 原始 算法 
收敛 非常 慢 ， 这 是 由 于 记录 了 转 置 分 解 佐 阵 W 的 道 的 W- 7 项 的 存在 。 后 来 发 现 ， 通 过 利用 自然 梯度 来 代 
Sem) COLL) 梯度 ， 正 如 式 (10. 128) 所 述 ， 算 法 的 收敛 明显 加 速 。 


18. Gram-Schmidt 正 交 化 过 程 在 Golub and Van Loan(1996〉 中 讲述 。 


19. 


对 称 FastICA 

作为 10.17 节 中 讲述 的 快速 ICA 算法 的 单一 单元 压缩 版 本 的 补充 ， 存 在 这 一 算法 的 另 一 个 版 本 ， 称 为 对 
称 FastICA 算法 。 后 一 个 版 本 以 并 行 的 方式 估计 育 源 分 离 问题 的 分 量 。 具 体 地 ， 对 每 一 分 量 ， 这 一 算法 包 
含 了 单一 单元 的 更 新 的 并 行 计算 ,接着 在 每 次 迭代 后 对 估计 的 分 离 矩 阵 进行 对 称 正 交 。 在 Tichavsky 
et al. (2006) 中 ， 在 “局 部 ”意义 下 推导 了 算法 的 两 个 版 本 的 分 析 闭 式 表示 刻画 的 分 离 性 。 
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20. TIMIT 数据 麻 
TIMIT( Texas Instruments (TI) and Massachusetts Institute of Technology (MIT)) 数据 库 是 语音 识别 的 
一 个 标准 数据 库 。 它 是 在 安静 环境 下 录制 的 8-kHz BE CRT) 语音 组 成 。 这 个 数据 库 包括 了 
630 个 发 言 者 (438 位 男性 和 192 位 女性 )， 每 位 发 言 者 有 10 个 发 言 ， 平 均 每 个 发 言 是 3 秒 钟 。 
21. 信息 瓶颈 的 另 一 个 观点 
关于 信息 瓶颈 的 另 一 个 考 虚 方法 是 将 之 看 成 “最 小 充分 统计 量 ” 的 经 典 概 念 的 泛 化 。 在 样本 概率 密度 函数 
Px | A 《Xi ,Xz yx | a) 下 的 参数 向 量 a 的 充分 统计 量 是 一 个 样本 的 向 量 函 数 SCX)， 它 保留 了 关于 参数 a 的 
样本 的 所 有 互信 息 ; 即 1(X;a) 二 I(S(X); a)。 最 小 充分 估计 量 是 最 简单 的 可 能 充分 统计 量 ， 或 者 是 男 一 
个 充分 统计 量 的 函数 ，T(X) = FCSCX) )。 从 称 为 数据 处 理 不 等 《Cover and Thomas 2006) 的 互信 息 的 基本 
性 质 ， 对 于 任意 充分 统计 量 SCX) 如 果 ICT;X) 态 1(S;X) 时 TC(X) 是 最 小 的 。 最 小 充分 统计 量 捕 提 了 “样本 XX 
关于 参数 向 量 a 的 相关 部 分 ”的 概念 。 不 幸 的 是 ， 精 确 的 固定 维 数 ) 充分 统计 量 仅仅 对 指数 形式 的 分 布 
存在 。 这 一 重要 概念 的 一 个 有 吸引 力 的 泛 化 是 通过 信息 瓶颈 方法 来 达到 的 ， 它 显 式 寻找 其 的 其 有 关于 大 
最 小 互信 息 和 关于 相关 变量 Y (或 者 在 参数 统计 意义 下 的 a) RAKE HR, 
22. 在 经 典 ICA 理论 之 外 
本 章 的 前 面 重点 讨论 了 经 典 ICA 理论 。 在 独立 分 量 分 析 和 育 源 分 离 的 研究 中 已 经 在 多 个 前 沿 有 了 显著 的 
扩展 ,包括 如 下 这 些 内 容 : 
。 分 离 卷 积 混合 ， 这 里 的 注意 力 在 于 实际 观测 的 信号 混合 中 卷 积 扮 演 着 重要 角色 的 事实 。 
。 非 线性 育 源 分 离 ， 这 里 非 线 性 是 混合 过 程 的 固有 特性 。 
。 非 独 立 源 的 讶 源 分 离 ， 这 里 我 们 认识 到 一 个 或 多 个 源 信号 可 能 不 是 统计 独立 的 。 
。 有 了 噪 独 立 分 量 分 析 ， 这 里 放松 了 对 经 典 ICA 理论 的 无 噪 的 要 求 ， 因 此 人 迫使 我 们 面 对 有 了 噪 源 信号 的 实际 
现实 。 
。 欠 定 方案 ， 这 里 育 源 信号 大 于 混合 过 程 输出 端的 观测 数 ， 这 可 能 在 现实 中 发 生 。 
© 多 个 独立 子 空间 ， 这 里 ICA 理论 被 扩展 来 完成 这 样 的 情形 : 源 产生 的 信号 占据 了 不 同 的 子 空间 ， 这 些 
子 空间 是 彼此 独立 的 ， 在 每 个 子 空间 中 有 关 的 源 信号 依然 是 相关 的 。 
。 不 稳定 下 的 盲 源 分 离 技 术 ， 这 里 育 源 信和 号 假设 为 不 稳定 的 ， 挑 战 在 于 建立 不 稳定 的 概念 。 
。 音源 分 离 技术 ， 其 数学 基础 依赖 于 源 信 号 的 时 频 表 达 。 
。 稀世 分 量 分 析 ， 这 里 源 信 号 〈 如 自然 图 像 ) 的 稀 朴 性 的 概念 在 其 分 离 中 扮演 着 关键 角色 。 
。 基于 时 间 相 关 的 谨 源 分 离 技术 ， 这 里 甚至 可 以 分 离 在 特定 条 件 下 的 独立 高 斯 产 。 
我 们 这 里 所 列 出 的 是 一 系列 课题 ， 它 们 不 仅 和 源 信 号 的 实际 实现 有 关 ， 也 高 度 概括 了 在 ICA 和 BSS a 
论 及 其 应 用 中 的 理论 挑战 。 对 于 这 些 课题 的 详细 讨论 ， 有 兴趣 的 读者 可 以 参考 Hyvärinen% (2001), 
Roberts and Everson (2001)、Cichocki and Amari (2002) 的 书 ， 以 及 Cardoso (2001) 和 Choi 等 
(2005) 的 综述 论文 。 | 


习题 


m AG WI 

10.1 随机 变量 X 的 支撑 集 〈 也 就 是 取 非 零 的 值 域 ) 定义 为 [a,，5]， 没 有 别 的 限制 加 在 X 上 。 该 随机 变量 
的 最 大 炉 分 布 是 什么 ? 证 明 你 的 结论 。 

互信 息 

10.2 (a) 利用 微分 炳 ACK) 和 条 件 微 分 精 CX | Y) 的 定义 从 式 (10. 28) 的 第 一 行 开始 到 该 式 的 第 二 行 的 积分 

公式 ， 定 义 一 对 连续 随机 变量 XMY 之 间 的 互信 息 工 Xi Y). 

Ch) 利用 对 互信 息 1CX; YD 推导 的 积分 公式 来 证 明 式 (10. 30) 到 式 410. 32) 描 述 的 性 质 。 
Cc) 证 明 式 (10. 35) 的 第 二 行 ， 将 相对 炉 Dolx 表 示 为 期 望 形式 。 

10.3 ”假设 输入 随机 向 量 X 由 初始 分 量 X 和 背景 分 量 X; A, WL 


Y, = a X, 
Zi; = bi X, 
试问 Y; 和 2 之 间 的 互信 息 ， 以 及 X AX. 之 间 的 互信 息 有 何 关系 ? 假设 向 量 X 的 概率 模型 是 多 元 高 


斯 分 布 : 
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10. 4 


A 词 
10. 5 
10.6 


10. 7 


10. 8 


prx) = exp((x— u) X (x—p)) 


1 
(2x)? (dety)! 
FP p E XW, TBE HDA, 
ERAI A THR RAX BR Kullback-Leibler 散 度 来 推导 多 层 感知 机 (Hopfield, 1987; Baum 
and Wilczek, 1998) 的 监督 学 习 算 法 。 更 确切 地 说 ， 考 虑 一 个 由 一 个 输入 层 、 一 个 隐藏 层 和 一 个 输出 
压 构 成 的 多 层 感 知 机 ， 假 设 实例 或 样本 a 呈现 给 输入 ， 输 出 层 神经 元 & 的 输出 解释 为 概率 ; 

Ykla = Pele 


相应 地 ， 令 qi |。 表 示 当 输入 是 a 时 ， 假 设 t 为 真 的 条 件 概 率 的 实际 值 ， 该 多 层 感知 机 的 相对 精 定 义 为 


Doig = D3 p. D) (aue log( 2 ) + (1 — que log ( +— thie 此 le )) 


la 

kla l — Pria 
其 中 p, SE Bla 情况 的 一 个 先 验 概 率 。 
以 Do 为 最 优化 的 代价 函数 ， 推 导 一 个 多 层 感知 机 的 学 习 算法 。 


涪 明 在 10. 6 节 中 人 性质 1 下 列 出 的 系 词 Coy (a, V 的 三 个 有 限 值 。 
系 词 的 一 个 有 趣 的 应 用 是 生成 新 的 分 布 (Genest and Mackay, 1989), ARAM (a) 和 Cb) 讲述 这 一 
应 用 。 

(a) 积 系 词 

一 对 统计 独立 的 随机 变量 X 和 了 的 每 个 成 员 都 是 均匀 分 布 的 ， 正 如 下 式 所 示 : 


wo =f siere 
a 


O, 否则 
ow 
pr(y) =< 2 

0， 否则 
加 出 系 词 Coy (uw，v)。 
(b) 高 斯 系 词 
考虑 具有 0 -均值 和 单位 方差 的 一 对 相关 高 斯 分 布 ， 为 下 面 的 两 个 相关 系数 值 画 出 相应 的 系 词 ; 
(i) p=0.9 
(ii) p=—0.9 


考虑 一 对 随机 变量 X 和 Y， 其 互信 息 记 为 IX; Y)。 比 对 式 (10. 28) 和 基于 系 词 的 作为 统计 相关 测量 的 
式 (10. 49) 的 I(X;Y) 的 公式 。 

为 了 推导 式 (10. SOW ARMA SMW KR. RI RATHER. 根据 和 推导 式 (10.49) 相 似 
的 方法 重新 推导 式 (10. 50). 


Infomax 原则 


10.9 


10.10 考虑 图 P10. 10 中 的 噪声 模型 ， 两 个 神经 网 络 的 


假设 有 两 个 通道 。 它 们 的 和 输出 分 别 用 随机 变量 XA YRR, BR X, Y 之 间 的 互信 息 达 到 最 大 。 证 

明 只 要 满足 以 下 条 件 则 就 可 以 达到 要 求 ， 

Ca) HA X 的 概率 和 出 现 Y 的 概率 分 别 是 0. 5。 

(b) X, Y 的 联合 概率 密度 函数 集中 在 概率 空间 的 
一 个 小 区 域内 。 


输入 端 剖 为 m 个 源 节 点 。 输 入 由 Xi Xz ,XX 
表示 ， 相 应 的 输出 结果 用 Yi, Yo 表示 。 可 以 
假设 : 

。 网 络 和 输出 端的 加 性 噪声 分 量 N o N: 是 高 斯 
分 布 ， 具 有 零 均 值 和 共同 方差 on, FARA 
相关 。 

。 每 个 噪声 源 与 输入 信号 无 关 。 图 P10. 10 
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10. 11 


独立 分 


10. 12 
10. 13 


10. 14 


10. 15 
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。 输出 信号 V1. Y: 都 是 0 -均值 的 高 斯 分 布 。 
Ca) 求 输 出 问 量 Y=LY, Y 1 与 输 和 人 问 量 X 一 LX, PE s Xa ak 之 间 的 互信 息 。 
(b) HHA l(a》 中 导出 的 结果 ， 检 测 在 以 下 情况 下 元 余 / 相 异性 是 如 何 折 中 的 (Linsher，1998a): 
Ci) 噪声 的 方差 很 大 ， 表 示 为 鸣 XIF Y o Y: FBX. 
OD URW BiB), XIRA ov WIT Yi, Y; 很 小 。 
在 10.10 节 中 所 描述 的 Imax 原则 中 ， 有 目标 是 根据 噪声 神经 系统 的 输入 向 量 XX。 AX, 求 输出 Y,，Y 之 
间 的 互信 息 MY.” Y,) 的 最 大 值 。 在 男 一 种 方法 中 ， 一 个 不 同 的 且 标 是 求 输出 Y。 MY, 的 平均 值 与 它 
们 闸 有 的 共同 信号 分 量 S 之 间 的 互信 息 (I, sekt. 
利用 例 8 中 描述 的 噪声 模型 ， 完 成 下 列 任务 : 
Ca) 证 明 





1( 5,8) = toa SN) 

其 中 Na Ne Æ Ye Yo 相应 的 噪声 分 量 。 
(b) 用 信号 加 噪声 与 噪声 的 比 来 解释 此 互信 息 。 
量 分 析 
给 出 主 分 量 分 析 (在 第 8 章 讨论 过 ) 与 独立 分 量 分 析 〈 在 第 10. 12 节 讨 论 过 ) 的 详细 比较 。 
独立 分 量 分 析 可 以 用 作 检 测 和 分 类 之 前 近似 数据 分 析 的 预 处 理 步 又‘Comon，1994)。 讨 论 能 在 这 种 
应 用 中 加 以 利用 的 独立 分 量 分 析 的 性 质 。 
Darmois 定理 陈述 只 有 当 各 个 独立 变量 是 高 斯 分 布 的 ， 其 和 才 是 高 斯 分 布 的 “Darmois，1953)。 用 独 
立 分量 分 析 证 明 这 个 定理 。 
在 实际 的 应 用 中 ， 一 个 独立 分 量 分 析 算 法 实现 只 能 得 到 “ 尽 可 能 统计 独立 ”。 比 较 用 该 算法 解 育 源 分 
离 问 题 得 到 的 解 与 利用 去 相关 方法 得 到 的 解 的 差异 。 假 设 观 察 向 量 的 协 方 差 扰 阵 为 非 奇 异 的 。 








ICA 的 自然 梯度 学 习 算 法 


10. 16 


10.17 


10. 18 


参考 图 10. 12 描述 的 系统 ， 证 明 分 离 器 的 输出 Y 的 任何 两 个 分 量 的 互信 息 最 小 化 与 参数 化 的 概率 密度 
函数 py(y，W}) 和 相应 的 析 因 分 布 pO. WEH Kullback-Leibler 散 度 CHM) 的 最 小 化 等 价 。 
ERCO. 100) 中 描述 的 育 源 分 离 问 题 的 自 适应 算法 有 两 个 重要 的 性 质 : C) 等 变化 性 ; (2) 权 值 矩阵 
W SEAR EE (1) 在 10. 14 节 后 面部 分 有 详细 的 介绍 。 在 本 习题 中 考查 第 二 个 性 质 ，。 
假设 用 于 开始 式 (10. 100) 算 法 的 初始 值 WO 满足 条 件 

ldet(Win)) | £0 对 于 所 有 zz 
证 明 这 是 保证 Wx) 对 所 有 的 是非 奇异 的 充分 必要 条 件 。 
本 习题 讨论 式 (10. 100? 所 描述 的 盲 源 分 离 算法 的 批量 公式 。 有 具体 写成 : 


AW = (1-40) w 


其 中 
yA) y 1 yN) 
y1) W) 1 y (N) 
ml) Yml) … Ya OND 
H. 
ply AD g2) e oly CN) 
(y, (1)) Cy (2)) 9 Cy, (CN)? 
ay) = | oa ý E 
Pym (1)) GC ¥mC2)) pl ym ON)? 


其 中 N Boy GE AAR. EAA bc WE AW 的 公式 成 立 。 


ICA # #4 Infomax 
10.19 ”考虑 图 10. 16， 得 到 (利用 随机 向 量 符号 ): 
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Y= wx 
其 中 
Yo—=[Y,,Y,,, alg 
X 一 [XXX ]7 
W 是 一 个 mxXm 的 权 值 矩阵 。 令 
Z = L222 Zm] 
其 中 
Ze = oY: )sk = 1,2, 5m 
(a) TEAR Z ASK G44 Kullback-Leibler REF Dar EARRA: 
A(Z) =— Dy — De iia 
其 中 Dzi FATS Kullback-Leibler RHE: (a) 统计 独立 的 〈 即 析 因 式 的 ) 输出 向 量 组 Y 


的 概率 密度 函数 ，(b) 由 TD oC.) 定义 的 概率 密度 函数 。 
Cb) 对 于 所 有 的 i， 当 gq(y;) 与 初始 源 输出 S 的 概率 密度 函数 相等 时 ，A(Z) 的 公式 该 如 何 修改 ? 


10.20 (a) 从 式 (10. 124) 开 始 ， 推 导 式 (10. 125) 的 结果 。 
(b) 用 式 (10. 126) 中 的 logistic 函数 ， 证 明 使 用 式 (10. 125) 将 产生 由 式 (10. 127) 给 出 的 公式 。 
(c) 为 建立 在 式 (10. 129) 的 学 习 算法 上 的 盲 源 分 离 Infomax 算法 构造 信号 流 图 。 
FastICA 算法 
10.21 给 定 由 式 (10. 132) 和 式 (10. 133) 定 义 的 函数 OC), BY 
1. lv) = log(cosh(v)) 
2. Dv) = exp(— 5) 
为 下 列 公式 推导 相应 的 表达 式 : 
glu) 一 
和 
g Cv) = dga 
在 点 1 和 点 2 的 例子 中 OW), poA g o PR RR EAT AAR? 证 明 你 的 回答 。 
10. 22 FastICA 算法 声称 比 其 他 ICA 算法 (如 自然 梯度 算法 和 Infomax 的 ICA 算法 ) 快 得 多 。 验 证 FastICA 
算法 中 对 于 这 一 重要 性 质 的 特征 。 
相关 ICA 
10.23 在 组 合 Infomax 和 Imax 到 目标 函数 J(W,。，W，,) 时 ， 我 们 省 W T Œ Infomax 和 Imax 之 间 提 供 折 中 的 
正则 性 。 这 样 做 是 为 了 简化 ICA 算法 的 公式 。 如 何 才 能 够 修改 目标 函数 使 其 保留 网 络 a A Ra i Z 
间 的 统计 相关 的 闻 时 仍然 在 目标 函数 中 包括 正则 性 ? 这 一 延伸 有 什么 意义 ? 
10.24 ”从 计算 项 上 ， 算 法 相关 ICA 和 FastICA 共享 了 两 个 相似 的 特征 。 这 些 特征 是 什么 ? 给 出 详细 说 了 明 。 
10.25 对 比 相 关 ICA 和 其 他 ICA 有 什么 不 同 特征 。 
信息 瓶颈 方法 
10.26 考虑 通过 画 出 如 图 10. 21 RRM ICT; Y) 对 I(X; T) 的 信息 曲线 。 证 明 : 对 于 最 优 信息 瓶颈 解 ， 这 一 
曲线 是 递增 凸 曲线 ， 在 每 一 点 的 斜率 是 1/B。 
10.27 图 10. 22 的 关于 信息 瓶颈 方法 的 直观 描画 和 图 4. 19a 的 重复 符 网 络 〈 恒 等 映射 ) 彼此 间 上 县 有 强烈 的 相 
似 性 。 详 细 说 明 这 一 陈述 及 其 相关 的 含义 。 
10.28 (10.184) 是 由 式 (10. 182) 而 来 。 
(a) 证 明 式 (10. 184). 
(b) 证 明 伴 随和 公 式 (10. 185). 
10.29 在 应 用 式 (10. 183) 的 最 优 条 件 到 式 (10. 186) 的 拉 格 朗 日 算 子 的 过 程 中 ， 我 们 跳 过 了 一 些 严格 步 又 。 


(a) 从 式 (10. 183) 开 始 ， 推 出 达到 如 下 结果 的 所 有 步骤 
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ville Si hess 2 Grix(t| x) BOD _ 
xy | + log( a J 


Cb) 由 此 ， 推 导 式 (10.188) 和 式 (10. 189) 中 的 相 容 公式 对 。 
计算 机 实验 
10.30 考虑 在 图 10. 9 中 描述 的 系统 包含 如 下 三 个 独立 源 : 

sı (n) =0. lsin(400n) cos(30n) 

sy (n) =0. Olsgn(sin(€500n-+ 9cos(40n) )) 

s(n) = RE, EWE L—1. 1] 上 均匀 分 布 

混合 矩阵 A 是: 


A= |—0.75 0.65 0.86 
0.17 0.32 一 0.48 
(a) 画 出 三 个 源 信 和 号 s(n)，sz(n) Msa) 的 波形 。 
(b) 利用 10.14, 10.16, 10.17 节 中 讲述 的 三 个 ICA 算法 来 解 盲 源 分 离 问题 ， 包含 源 G2). wd. 
s(a) 和 混合 矩阵 A。 画 出 分 离 器 输出 产生 的 波形 ， 并 和 Ca) 部 分 画 出 的 相 比较 。 
Cc) 决定 分 离 矩 阵 W，。 
10.31 在 10.21 节 中 讲述 的 计算 机 实验 中 ， 我 们 利用 了 最 优 流 形 〈 对 数据 的 非 监 督 表达 ) 和 最 小 均 方 算法 
(LMS) 来 完成 模式 分 类 。 用 于 分 类 的 数据 基于 特定 的 图 1. 8 所 示 的 双 月 结 爸 。 
(a) 重复 10. 21 节 所 示 的 计算 机 实验 ， 这 一 次 利用 递归 最 小 二 乘 (RLS) AAKRE LMS 算法。 
Cb) 从 性 能 收敛 和 计算 复杂 度 的 角度 比较 你 的 实验 结果 和 10. 21 节 的 结果 。 


0. 56 和 7 
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西根 于 统计 力学 的 随机 方法 


本 章 组 织 

本 章 的 研究 主题 是 研究 通过 建立 在 根植 于 统计 力学 上 的 思想 的 随机 算法 ， 用 于 模拟 、 优 化 
和 学 习 的 随机 方法 。 
本 章 组 织 如 下 : 

11.1 节 是 引言 ， 主 要 列举 对 研究 该 主题 的 动机 的 描述 。 

11.2 节 对 统计 力学 进行 了 介绍 性 描述 ， 重 点 是 以 动力 学 观点 来 看 待 自由 能 量 和 炳 的 概念 。 

11.3 书 主 要 是 讨论 一 种 特殊 随机 过 程 名 为 马尔 可 夫 链 (Markov chains)， 其 应 用 经 常 能 出 
现在 统计 力学 的 研究 中 。 

11.4 节 至 11.6 节 主要 研究 下 列 三 个 随机 模拟 /优化 的 方法 : 

。 Metropolis 算法 

。 模拟 退火 

。 Gibbs 采样 

Metropolis 算法 和 Gibbs 采样 分 别 对 于 静态 过 程 和 非 静 态 过 程 进行 了 模拟 ， 而 模拟 退火 方 
法 是 面向 优化 的 。 

11.7 节 至 11.9 节 介绍 根植 于 统计 力学 的 随机 机 器 : 

。 Boltzmann 机 器 

。 losgistic 信 度 网 络 

。 深度 信和 度 网 络 
其 中 深度 信 度 网 络 具 有 独特 的 性 质 ， 它 克服 了 古典 Boltzmann 机 器 和 logistic 信 度 网 络 实用 的 限制 。 

11.10 节 主 要 描述 确定 退火 方法 ， 它 是 对 模拟 退火 方法 的 近似 ; 不 论 它 的 名 字 ， 确 定 退 火 
是 一 种 随机 算法 。11. 11 节 介 绍 最 大 期 望 算 法 ， 同 时 一 并 讨论 一 种 确定 退火 方法 。 

11.12 节 对 本 章 进 行 小 结 和 讨论 。 


11.1 5/8 


作为 无 监督 〈 自 组 织 ) 学 习 系 统 的 最 后 一 种 类 别 ， 我 们 以 统计 力学 作为 我 们 思想 的 出 发 
点 。 统 计 力 学 的 主题 围绕 对 大 系统 宏观 平衡 态 性 质 的 形式 化 研究 ， 而 系统 的 每 个 基本 元 系 遵 循 
力学 的 微观 定律 。 统 计 力 学 的 主要 目标 是 从 微观 元 素 〈 如 原子 和 电子 的 运动 ) 推导 出 宏观 物体 
的 热力 学 性 质 (Landau and Lifshitz, 1980; Parisi，1988)。 这 里 面 对 的 自由 度数 量 是 巨大 的 ， 
这 样 不 得 不 用 概率 的 方法 进行 研究 。 正 如 香农 的 信息 论 一 样 ， 在 统计 力学 的 研究 中 炉 的 概念 起 
着 关键 的 作用 : 

系统 越 有 序 或 者 它 的 概率 分 布 越 集中 ， 则 炳 越 小 。 

同 理 ， 我 们 可 以 说 系统 越 无 序 或 它 的 概率 分 布 越 均 匀 ， 则 焙 越 大 。 在 1975 年 ，Jaynes 证 
明了 灶 不 仅 可 以 像 前 一 章 所 述 的 那样 作为 构造 统计 推理 的 出 发 点 ， 而 且 可 以 作为 产生 统计 力学 
研究 基础 的 Gibbs 分 布 的 出 发 点 。 


利用 统计 力学 作为 研究 神经 网 络 基础 的 兴趣 可 以 追溯 到 Cragg and Temperley(1954) 以 及 
Cowan(1968) 的 早期 工作 。Boltzmann 机 (Hinton & Sejnowski, 1983, 1986; Ackley 等 
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1985) 也 许 是 第 一 个 由 统计 力学 导出 的 多 层 学 习 机 。 机 融 的 命名 认可 了 神经 网 络 自 身 的 动力 学 
行为 和 Boltzmann 原始 关于 统计 热力 学 工作 的 形式 上 的 等 价 性 。 基 本 上 说 ，Boltzmann 机 可 以 
对 给 定数 据 集 的 固有 概率 分 布 进行 建 模 ， 这 样 在 诸如 模式 完备 和 模式 分 类 等 任务 中 所 使 用 的 条 
件 分 布 就 可 以 导出 来 了 。 令 人 遗憾 的 是 Boltzmann 机 的 学 习 过 程 是 令 人 难以 忍受 地 慢 ， 这 一 缺 
点 导致 对 Boltzmann 机 的 修改 和 产生 了 新 的 随机 机 器 。 以 上 这 些 问题 检 成 了 本 章 的 大 部 分 
题材 。 


11.2 统计 力学 


考虑 具有 许多 自由 度 的 物理 系统 ， 它 可 以 驻 留 在 大 量 可 能 状态 中 的 任何 一 个 。 例 如 ， 用 户 
表示 一 个 随机 系统 中 状态 i 发 生 的 概率 ， 具 有 如 下 性 质 ， 
pi 之 0， 对 于 所 有 1i (11. 1) 
且 
Se: =1 (11.2) 


HE 表示 系统 在 状态 i 时 的 能 量 ， 统 计 热力 学 基本 结论 告诉 我 们 ， 当 系统 和 它 周 围 的 环境 处 
于 热平衡 时 ， 一 个 基本 的 结果 是 状态 i 发 生 的 概率 如 下 ， 


1 E; 
pi = zexr(— 7 (11. 3) 
其 中 工 为 开尔文 绝对 温度 ，ks X Boltzmann 常数 ，2Z 为 与 状态 无 关 的 常数 。1 开尔文 度 相当 于 


一 273 RRE, k=1. 38X10 H/F. 

式 (11. 2) 定 义 概率 规范 化 的 条 件 。 将 这 个 条 件 添 加 到 式 (11. 3) 得 到 

Z = Z exp(— 5) (11. 4) 

规范 化 量 Z 称 为 状态 和 或 者 剖 分 函数 〈 通 常用 符号 Z 是 因为 这 项 的 德 文 名 字 为 Zustad- 
summe), ROL 3) 的 概率 分 布 称 为 典型 分 布 或 Gibbs 分 布 ' ; 指数 因子 (—E,/kpT) 称 为 Bo- 
Itzmann 因子 。 

对 Gibbs 分 布 以 下 两 点 值得 注意 : 

1. 能 量 低 的 状态 比 能 量 高 的 状态 发 生 的 概率 高 。 

2. 随 着 温度 降低 ， 概 率 集中 在 低能 状态 的 一 个 更 小 的 子 集 上 ， 

温度 工 可 以 被 视 为 一 种 伪 温 度 ， 它 控制 表示 神经 元 “ 突 触 噪声 ”的 热 波 动 。 它 的 精确 标 
度 因 而 无 关 紧 要 。 相 应 地 ， 我 们 可 以 置 常数 &s 为 单位 1 而 重新 度量 之 ， 因 此 重新 定义 概率 p 
和 剂 分 函数 (partition KOZ 如 下 : 


p: = 二 exp( 一 =) (11.5) 
和 
Z= exp( 一 未 ) (11. 6) 


今后 我 们 处 理 统计 力学 就 在 这 两 个 定义 基础 上 进行 ， 其 中 工 简单 称 为 系统 温度 。 从 式 (11.5) 
我 们 注意 到 一 logp; 可 以 被 看 作 在 单位 温度 下 “能 量 ” 的 一 种 度量 。 


A h HE tA 
物理 系统 的 Helmholtz 自由 能 量 记 为 下， 由 前 分 函数 Z 定义 如 下 ， 
=— TlogZ (11. 7) 
系统 的 平均 能 量 定义 为 : 
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<E>= DPE: (11. 8) 


《。》> 表 示 总 体 平 均 运 算 。 因 此 ， 利 用 式 (11. 5) 至 式 (11. 8)， 可 以 看 出 平均 能 量 和 自由 能 量 之 
FER 


<E>—F=—T) p:logp: (11.9) 
A119) AY ot BET. PARKRA. RIRH: 
H =— >) p,logp, (11. 10) 


(这 个 定义 与 第 10 章 的 信息 论 模 型 是 一 致 的 ) 
因此 可 以 重 写 式 (11.9) X: 

<E>— F= TH 
的 形式 或 等 价 于 : 

F=<E>—TH (11.11) 
考虑 两 个 系统 A MA BIA. RASA 比 系统 A' 更 小， 这 样 A 可 以 看 作 具 有 恒温 工 
yak em. SAA SEY Sl KR KAS 

AH + AH’ >0 
增加 ， 其 中 AH Al AH 分别 表示 系统 A MA MOREE (Reif，1965)。 根 据 式 (11. 11)， 这 
个 关系 的 含义 是 指 系统 下 的 自由 能 量 和 逐渐 降低 至 平衡 态 时 变 为 最 小 。 由 统计 力学 我 们 发 现 此 
时 它 的 概率 分 布 为 Gibbs 分 布 。 因 而 我 们 有 一 个 重要 的 原则 称 为 最 小 自由 能 量 原则 ， 它 可 以 陈 
述 如 下 (Landau and Lifshitz, 1980; Parisi, 1988): 


随机 系统 变 元 的 自由 能 量 的 最 小 值 可 在 热平衡 时 达到 ， 此 时 系统 服从 Gibbs 分 布 。 自 然 偏 
爱 具 有 最 小 自由 能 量 的 物理 系统 。 


11.3 马尔 可 夫 链 


考虑 由 多 个 随机 变量 组 成 的 一 个 系统 ， 其 演化 可 由 一 个 随机 过 程 { X,,n = 1,2,…) H 
述 。 随 机 变量 X, 在 时 刻 n 取 值 zx, 称 为 系统 在 n 时 刻 的 状态 。 随 机 变量 所 有 可 能 的 值 构成 的 空 
间 称 为 系统 的 状态 空间 。 如 果 随 机 过 程 { X,,n = 1,2,… 的 构造 使 得 X11 的 条 件 概 率 分 布 
仅 依靠 于 X. 的 值 而 与 其 他 以 前 的 值 无 关 ， 称 这 个 过 程 为 马尔 可 夫 链 (Feller, 1950; Ash, 
1965) 。 更 准确 地 说 ， 我 们 有 
P(X = zx |X, = eX = x) = PC = Zu | Xa = Ta) (11. 12) 
这 称 之 为 马尔 可 夫 特 性 。 换 名 话说 : 
如 果 系 统 在 2 十 1 时 刻 出 现状 态 zj 的 概率 仅 依赖 于 系统 在 7 时刻 出 现状 态 z, 的 概率 ， 则 
随机 变量 序列 X; > X 2 per ae aX nti 成 为 马尔 可 夫 链 。 
因此 我 们 可 以 将 马尔 可 夫 链 看 作 产 生 模 型 ， 它 由 一 些 可 能 的 状态 〈 成 对 的 基础 上 ) 转移 链 
接 而 成 。 每 时 刻 访问 一 个 特定 的 状态 ， 模 型 输出 一 个 该 状态 相关 的 符号 。 
ee FS E 
在 马尔 可 夫 链 中 ， 从 一 个 状态 到 另 一 个 状态 的 转移 是 随机 的 ， 但 输出 符号 却 是 确定 的 。 令 
ps = PCX =j |X, =D (11.13) 
表示 在 nn 时 刻 状态 i 转移 到 nn 十 1 时 刻 状态 7 的 转移 概率 。 既 然 pj 为 条 件 概 率 ， 所 有 的 转移 概 
率 必 须 满足 两 个 条 件 : 
pi 宇 0， 对 于 所 有 的 i,7 (11. 14) 


ww ai bbt.com 000000 





SR 植 根 于 统计 力学 的 随机 方法 ' 369 


dbs 一 1， 对 于 所 有 的 i (11. 15) 


将 假定 转移 概率 是 固定 的 ， 不 随时 间 改 变 ; 也 就 是 说 ， 式 (11. 13) 对 所 有 时 间 成立 。 在 这 种 
情况 下 ， 马 尔 可 夫 链 称 为 关于 时 间 是 齐 次 的 。 
如 果 系 统 具 有 有 限 数 目的 可 能 状态 ， 例 如 个 状态 ， 则 转移 概率 构成 一 个 KXK 的 矩阵 
Pu Piz vee Pik 


Pa Pz °° Pok 


p= (11. 16) 


Pei Pr °° Prk 

它 的 元 素 满足 式 (11. 14) ASK. 15) 所 述 的 条 件 ， 而 后 一 条 件 就 是 P 的 每 行 的 和 为 1。 这 种 类 
型 的 矩阵 称 为 随机 短 阵 。 任 何 随机 矩阵 可 以 作为 转移 概率 矩阵 ， 

由 式 (11. 13) 定 义 的 一 步 转 移 概 率 可 以 推广 到 经 过 固定 的 步 数 从 一 个 状态 转移 到 男 一 个 状 
态 。 令 2gm 表示 从 状态 ; 到 状态 j 的 mm 步 转移 概 素 ， 

De =P OC a = NS ee E aa (11.17) 

我 们 可 以 把 六 "看 作 系统 从 状态 ; 转移 到 状态 ;经历 的 所 有 中 间 状态 4 KA, HI pT 
Ap” 弟 推 而 得 : 


pS SS posi LaZr (11. 18) 
而 
pe = Pr 
式 (11. 18) 可 以 推广 如 下 : 
pS pS pO = 1a (11. 19) 
这 是 Chapman-Kolmogorov 恒等式 的 特殊 情形 (Feller, 1950), 


马尔 可 夫 链 的 详细 说 明 
有 了 状态 和 转移 概率 的 概念 ， 我 们 现在 可 以 将 马尔 可 夫 链 具体 总 结 如 下 : 


G) 一 个 由 如 下 项 目 定义 的 随机 模型 

。 有 限 K 可 能 状态 表示 为 S = (1,2,'…K}。 

。 一 些 列 相应 的 概率 (p), EP pj; 为 从 状态 i 到 j 的 状态 转移 概率 ， 并 且 满 足 
py 2 0 


>b =] 对 所 有 的 i 


I 


Gi) 给 定 已 描述 的 随机 模型 ， 马 尔 可 夫 链 是 由 下 列 一 系列 的 随机 变量 Xo Xio Xz, f 
给 定 ， 其 中 它们 的 值 根据 相应 的 马尔 可 夫 特 征 取 自 于 状态 S, 

PK(X =} |X, = i, Xen = ips Xo = i) = P(X = j|X, =D 

其 中 对 所 有 的 时 间 ”和 所 有 的 状态 ;，7jJES 都 成 立 ， 同 时 所 有 的 可 能 序列 to eet 涉及 
之 前 的 状态 。 
常 返 性 
假设 一 个 马尔 可 夫 链 从 状态 i 开始， 它 以 概率 1 返回 状态 i， 则 称 状态 ; 为 常 返 的 ; 也 就 是 说 

b: = P( 状 态 i 的 每 一 个 返回 ) = 1 | 

若 概 率 p; 二 1， 则 称 状态 i AA (Leon-Garcia, 1994). 
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如 果 马 尔 可 夫 链 从 一 个 常 返 态 开 始 ， 则 该 状态 在 时 间 上 将 无 穷 次 重 现 。 如 果 从 一 个 瞬 态 开 
始 ， 它 将 只 能 有 限 次 重 现 。 这 可 以 作 如 下 解释 : 我 们 可 以 把 状态 i 重新 发 生 看 作 一 个 成 功 概率 
为 p; 的 Bernoulli 试验 *。 它 返回 的 次 数 为 具有 均值 Apr) 的 几何 随机 变量 。 若 p; 二 1， 这 
意味 着 有 无 穷 次 成 功 的 次 数 为 零 。 因 此 一 个 瞬 态 确实 在 有 限 次 返回 后 不 再 发 生 。 

如 有 一 个 马尔 可 夫 链 有 某 些 瞬 态 和 常 返 状态 ， 则 该 过 程 最 终 只 会 在 常 返 态 之 间 移 动 。 
周期 性 

图 11. 1 显示 一 个 具有 常 返 态 的 马尔 可 夫 链 。 此 链 经 过 一 系 
列 的 子 态 ， 经 过 三 倍 次 移动 之 后 以 相同 子 态 结束 。 图 示 说 明 这 
个 常 返 的 马尔 可 夫 链 具有 周期 性 。 

BA 11. 1 而 言 ， 一 个 常 返 的 马尔 可 夫 链 如 果 是 具有 周期 性 
的 是 指 所 有 状态 能 被 编 人 4 个 各 不 相交 的 子 集 Si，,S;,…,Ss， 
其 中 d>>1， 而 且 所 有 的 从 一 个 子 集 到 另 一 个 子 集 的 转移 都 有 这 
种 方式 ， 在 此 图 中 ，d 王 3。 更 精确 地 ， 一 个 周期 性 常 返 的 马尔 
可 夫 链 是 指 满 足以 下 条 件 (Bertsekas and Tsitsiklis, 2002). 

Peres epsom Se 
joke 图 11.1 一 个 4=3 周期 性 党 
一 个 常 返 的 马尔 可 夫 链 是 不 定期 的 是 指 它 不 具有 周期 性 。 返 的 马尔 可 夫 链 
不 可 约 马尔 可 夫 链 

一 个 马尔 可 夫 链 上 的 状态 7 称 为 从 状态 : 可 达 的 ， 如 果 从 状态 i 到; 存在 有 限 步 具有 正 概 
率 的 转移 。 如 有 果 状 态 i 和 状态 7 之 间 互 为 可 达 的 ， 则 该 马尔 可 夫 链 的 状态 i 和 状态 7 称 为 彼此 
相通 的 。 这 种 相通 可 写作 i<>; 。 很 明显 ， 如 果 状 态 i 与 状态 7 相通 ， 且 状态 7 与 状态 & 相通 ， 
Bl iej Mjek, MRE i 和 状态 相通 〈 即 iek). 

如 果 马 尔 可 夫 链 的 两 个 状态 相通 ， 则 其 属于 同一 类 。 一 般 情况 下 ， 一 个 马尔 可 去 链 的 状态 
组 成 一 个 或 多 个 不 相通 的 类 。 但 是 ， 如 果 所 有 状态 组 成 一 个 类 ， 则 称 该 马尔 可 夫 链 为 不 可 分 的 
或 者 不 可 约 的 。 换 句 话说， 一 个 不 可 约 的 马尔 可 夫 链 从 任 一 个 状态 开始 ， 可 以 以 正 的 概率 达到 
任何 别 的 状态 。 可 约 链 在 大 多 数 的 应 用 领域 无 实际 价值 。 相 应 地 我 们 限制 我 们 的 注意 仅 在 不 可 
约 的 链 。 

考虑 一 个 不 可 约 的 马尔 可 夫 链 ， 在 时 刻 n= 二 0 时 开始 于 常 返 态 i。 令 T,(&) 表 示 第 一 1 次 
和 第 次 返回 状态 i 之 间 的 时 间 间 隔 。 状 态 i 的 平均 常 返 时 间 定 义 为 T;(k) 关 于 的 期 望 值 。 
状态 i 的 稳 态 概率 ， 记 为 x;， 等 于 平均 常 返 时 间 E [TC] 的 倒数 ， 即 由 下 式 表 示 : 

1 
~ ELT: (2) ] 
如 果 E (TCR) ] <, WR n>0, RAL 称 为 一 个 正常 返 (持久 的 ) S. FELT CR) 一 
co, ERE x 二 0， 状 态 i 称 为 一 个 零 常 返 (持久 的 ) A. n= 意味 着 马尔 可 夫 链 最 终 达 到 的 
状态 再 返回 状态 i 是 不 可 能 的 。 正 常 返 和 零 常 返 是 不 同类 的 性 质 ， 这 意味 着 同时 具有 正常 返 和 
零 常 返 的 马尔 可 夫 链 是 可 约 的 。 
遍历 马尔 可 夫 链 

大 体 上 说 ， 遍 历 性 意味 着 我 们 可 以 用 时 间 的 平均 替代 总 体 平 均 。 对 一 个 马尔 可 夫 链 来 说 ， 
遍历 性 意味 着 链 处 于 状态 i 的 时 间 长 度 和 稳 态 概率 x; 相对 应 ， 这 可 以 说 明 如 下 : 下 次 返回 后 花 
费 在 状态 i 的 时 间 ， 用 v;() 表 示 ， 定 义 为 





TE; 
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u(k) 一 一 
TM 
返回 时 间 了 (7 构成 一 列 独立 的 和 同 分 布 〈iid) 的 随机 变量 ， 因 为 由 定义 每 次 返回 的 时 间 都 是 
和 以 前 返回 的 时 间 统 计 独 立 的 。 更 进一步 ， 对 常 返 态 ;， 链 返回 状态 i 无穷 次 。 因 此 当 返 回 次 
数 & 通 近 无 穷 大 时 ， 大 数 定律 表明 ， 花 费 在 状态 :的 时 间 比 例 趋 近 稳 态 概 率 ， 表 示 为 
limy, (k) = Tj» X i= 1,2,,K (11. 20) 





其 中 K 是 状态 的 个 数 。 

马尔 可 夫 链 为 遍历 的 一 个 充分 但 不 必要 的 条 件 是 : 它 为 不 可 约 的 且 非 周期 的 。 
收敛 于 平衡 分 布 

考虑 一 个 遍历 的 马尔 可 夫 链 ， 相 应 的 转移 矩阵 为 了 了 。 令 行 向 量 n “表示 链 在 n 一 1 时 刻 的 
状态 分 布 向 量 ; wx"! 的 第 j 个 分 量 为 在 时 刻 n 一 1 时 链 处 于 状态 zx; 的 概率 。 在 n 时 刻 状态 分 布 
问 量 可 以 定义 为 : 


n = nP (11. 21) 
由 式 (11. 21) 迭 代 得 到 : 
g = gP P = g? R He p = 
并 且 最 后 可 以 写成 : 
x” = r” P” | (11. 22) 


其 中 x 是 状态 分 布 向 量 的 初始 值 。 也 就 是 说 : 

马尔 可 夫 链 在 时 刻 n 状态 分 布 向 量 为 初始 状态 分 布 向 量 Ww” 和 随机 矩阵 P 了 的 nn 次 方 的 
乘积 。 

令 pP Bm p” 的 第 i 个 元 素 。 假 设 随时 间 n 趋向 无 穷 大 时 ，p? 趋 于 与 i 无关 的 zw， 其 中 
n 为 状态 j 的 稳 态 概率 。 相 应 地 ， 对 于 大 的 n, EE P" 有 逼近 于 有 相等 行 的 方 阵 形 式 ， 可 表 
WÄ: 


区 1 Te UK 
S Tı Tz wee Uk T 
limP” = | , : Weis (11. 23) 
noe 0a 二 + + + 
Tl T2 eae Mk FIN 


其 中 n fe ÍT h iE h Tis Kee Me 构成 。 从 而 由 式 (11. 22) 发 现 (经 过 一 系列 调整 ) : 
[$e ree 


因为 由 定义 2 一 1， 初 始 分 布 的 独立 向 量 x 满足 这 个 条 件 ， 
现在 我 们 可 以 叙述 关于 马尔 可 夫 链 的 遍历 定理 如 下 (Feller, 1950; Ash, 1965): 


设 一 个 遍历 且 不 可 约 的 马尔 可 夫 链 具有 状态 Xis Tzs "ss LK Fo Ki pu 4E E P= {pj}. 那么 ， 
该 链 有 唯一 的 平稳 分 布 ， 可 以 由 任 一 初始 态 收 黎 到 它 ; 也 就 是 说 ， 存 在 唯一 一 组 数 《mi ji-1 使 得 


1l. limp’ =a, 对 于 所 有 + (11. 24) 

2. 20, 对 于 所 有 7 (11. 25) 
K 

3. Yin =1 (11. 26) 


j=l 
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4. Ti 一 D rips xtj=1,2,--,K (11. 27) 

相反 ， 假 定 一 个 马尔 可 夫 链 为 非 周期 不 可 约 的 ， 存 在 {zj) 人 满足 式 (11.25) 至 式 (11.27)， 那 
么 该 链 是 遍历 的 ，ri 由 式 (11.24) 给 出 ， 状 态 7 的 平均 常 返 时 间 为 1/ri 。 

概率 分 布 函 数 {xj;) 称 为 不 变 分 布 或 平稳 分 布 。 这 样 命名 是 因为 它 一 旦 建立 ， 将 永远 保 
持 。 根 据 遍 历 定理 ， 我 们 可 以 断言 : 

1. 从 任意 初始 分 布 开 始 ， 一 个 马尔 可 夫 链 的 转移 概率 将 收敛 于 一 个 平稳 分 布 ， 只 要 这 个 
平稳 分 布 存在 。 

2. 遍历 的 马尔 可 夫 链 的 平稳 分 布 独 立 于 它 的 初始 分 布 。 

例 一 个 可 遍历 的 马尔 可 夫 链 

考虑 一 个 马尔 可 夫 链 ， 其 状态 转移 图 由 图 11. 2 描绘 ， 它 有 两 个 状态 xo Mae. BHR 
阵 为 : 


|= ajo 


2 
它 满足 式 (11. 4) 和 式 (11. 5) 的 条 件 。 假 设 初始 条 件 是 


w [i 9 
i als l 
由 式 (11. 21) 我 们 发 现在 时 刻 n=1 状态 分 布 向 量 为 


ne = r” P= È =| 


"E 
6 6 24 24 


NR w]e 


AEREE P RKA n=2, 3, 4, 8 
| ro.4375 0.56257 „„ 70.4001 0.59997 1, 70.4000 0.6000 

~ a 3750 0. ned T hs 3999 0. eee) = i 4000 0. Hoe 
因此 vy = 0. 4000 和 x2 =0. 6000, FEIN BIT P. ERS AM EAR EE "一 4 次 迭代 就 完成 
T. AF na 和 x 都 大 于 零 ， 两 个 状态 都 是 正常 返 的 ， 并 且 链 为 不 可 约 的 。 同 时 注意 它 是 非 周 
期 的 ， 这 是 因为 使 〈P"), OO 的 所 有 正 整数 "之 1 的 最 大 公 因 数 是 1。 因此 得 出 结论 图 11, 2 的 
马尔 可 夫 链 是 遍历 的 。 图 





直到 现在 1 之 后 


图 11.2 例 1 的 马尔 可 夫 链 的 状态 转移 图 : 2 和 zz 分 别 以 直到 现在 和 之 后 标明 


例 2 一 个 具有 平稳 分 布 的 遍历 马尔 可 夫 链 
考虑 随机 和 矩阵 具有 某 些 零 元 素 的 马尔 可 夫 链 ， 如 
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0 0 1 
a E d 
P= 13 6 2 
3 1 
m ae © 
该 链 的 状态 转移 图 由 图 11. 3 描绘 。 
应 用 式 (11. 27) 得 到 下 列 联 立方 程 组 : 
TI = Bh T =m: 
M = ans +r 
ri = mı 十 om 
解 关 于 x. n 和 rs 的 方程 组 ， 得 到 
xı = 0. 395 3 
x = 0.1395 
Xz 一 Q. 463 2 
这 个 给 定 的 马尔 可 夫 链 是 遍历 的 ， 它 的 平稳 分 布 由 zo、xz 和 Xs EM, | 


状态 分 类 
在 所 述 材 料 的 基础 上 ， 我 们 可 以 对 状态 所 属 的 类 进行 小 结 ， 如 图 11.4 所 示 (Feller, 
1950; Leon-Garcia, 1994), 这 个 图 还 包括 状态 相关 的 长 期 行为 。 





状态 
明太 常 返 
1,=0 a 
正常 反 AWG 
m> 0 n=0 
非 周 其 的 周期 的 
limp; =n, limp P =dr as n> , 
Bi Bin 00 4 是 一 个 大 于 1 的 整数 
图 11.3 例 2 的 马尔 可 夫 状 态 转移 图 图 11.4 马尔 可 夫 链 的 状态 分 类 和 它们 相应 的 长 期 行为 


细节 平衡 原则 
这 一 原则 通常 在 统计 力学 中 使 用 。 细 节 平 衡 原 则 表明 : 
在 热平衡 中 任何 转移 的 发 生 率 等 于 对 应 的 逆转 移 的 发 生 率 ， 可 表达 为 : 
TPs = GPi 
一 个 马尔 可 夫 链 满足 细节 平衡 原则 称 为 可 逆 的 。 
为 了 说 明 原 则 的 应 用 ， 我 们 将 用 它 来 导出 式 (11.27》 的 关系 ， 它 是 平稳 分 布 的 定义 ， 我 们 
可 以 对 等 式 的 左边 进行 求 和 如 下 : 
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人 ip = D (pr) = 2 (bi); = Kj 
在 等 式 的 第 二 行 中 我 们 应 用 了 细节 平衡 原则 ， 在 最 后 一 行 利用 了 一 个 马尔 可 夫 链 的 转移 概率 满 
足 的 条 件 〈 参 看 式 (11. 15) ， 其 中 交换 了 i 和 7 的 作用 ) 


Spi = 1， 对 于 所 有 j 


从 上 述 讨论 ， 因而 断定 细节 平衡 原则 意味 着 (aj) 是 一 个 平稳 分 布 。 就 平稳 分 布 的 范围 而 言 ， 
细节 平衡 原则 比 式 (11. 27) 更 强 ， 在 这 个 意义 上 它 对 平稳 分 布 是 充分 的 ， 不 是 必要 的 。 


11.4 Metropolis 算法 


至 此 我 们 弄 清 了 马尔 可 夫 链 的 构成 ， 我 们 将 应 用 它 构 成 一 个 模拟 物理 系统 演化 到 热平衡 的 随 
机 算法 。 这 个 算法 称 为 Metropolis 算法 《Metropolis 等 ，1953)。 它 是 Monte Carlo 方法 的 一 种 修 
改 ， 在 早期 的 科学 计算 中 Monte Carlo 方法 是 对 大 量 原子 在 给 定 温度 下 的 平衡 态 的 随机 模拟 。 

由 于 它 是 Monte Carlo 方法 的 修改 ， 所 以 Metropolis 算法 也 通常 被 称 为 Markov chain Monte 
Carlo(MCMC) 方法 。 在 上 下 文中 ,我 们 可 以 正式 地 陈述 以 下 定义 (Robert and Casella, 1999). 


对 于 模拟 一 个 未 知 分 布 的 Markov Chain Monte Carlo 方法 是 指 产生 一 个 遍历 的 马尔 可 夫 链 而 它 
的 平稳 分 布 是 未 知 的 。 


Metropolis 算法 非常 完美 地 符合 这 个 定义 ， 同 样 对 它 的 推广 形式 Metropolis-Hastings 算 
法 ”也 是 如 此 。 
Metropolis 算法 的 统计 分 析 
假设 随机 变量 X, 表示 任 一 马尔 可 夫 链 在 时 刻 n 的 状态 为 xz;。 我 们 随机 生成 新 的 状态 ts 
它 表 示 另 一 个 随机 变量 Y, 的 一 次 实现 。 假 设 生成 这 个 新 状态 满足 对 称 条 件 : 
PCY, = z; |X, = 2,) = P(Y, = x |X. = z) 
A> AE 表示 系统 从 状态 义 , 二 zx; BURA Y, =r: 所 产生 的 能 量 差 。 我 们 进行 如 下 处 理 : 
1. 如 果 能 量 差 AE 为 负 ， 则 这 次 转移 导致 一 个 较 低能 量 状态 且 这 次 转移 被 接受 。 这 个 新 状 
态 也 就 接受 作为 算法 下 步 的 起 点 ， 即 我 们 令 X,+1 =Y.. 
2. 反之 如 果 能 量 差 AE 为 正 ， 这 时 算法 以 概率 方式 进行 处 理 。 首 先 ， 我 们 选择 一 个 在 单 
位 区 间 [0，1] 上 均匀 分 布 的 随机 数 6s。 如 果 &<exp( 一 AE/T)， 其 中 全 为 操作 温度 ， 转 移 
被 接受 且 置 X HY, 。 否 则 ， 转 移 被 拒绝 ， 置 X,11 =X. 即 旧 的 配置 被 算法 的 下 一 步 重新 
| FA 
转移 概率 的 选择 
对 任意 马尔 可 夫 链 ， 设 它 有 先 验 转移 概率 ， 记 为 上 ， 它 满足 三 个 条 件 ， 
1 非 负 性 ; cry SO, ATAA ij 
2. 归 一 化 : > ro 一 1， 对 于 所 有 i 
3， 对 称 性 ， ra = tee MTA i 
A> x, 表示 马尔 可 夫 链 在 状态 xz;(i = 1,2,… ,KK) 的 平稳 态 概率 。 因 而 我 们 可 以 利用 已 定义 
的 对 称 的 r 和 概率 分 布 比 m/n: 来 构成 期 望 的 转移 概率 (Beckerman, 1997); 
Tä (=) ， a < 1l 
py = | | (11. 29) 
Ti» 当 一 = 1 
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为 了 确保 转移 概率 归 一 化 为 单位 1， 我 们 引入 无 转移 概率 的 附加 定义 : 
Pa = ta + jr (1 sae eel a Dyess (11. 30) 
其 中 凡是 移动 概率 ， 定 义 为 
aj = min(1,™) (11. 31) 


唯一 尚 需 解 决 的 要 求 是 怎样 选择 比值 xj /x;。 为 满足 这 个 要 求 ， 我 们 选择 概率 分 布 使 得 所 得 的 


"P. E, 
z = zel- 7) 
这 时 概率 分 布 比 n/n 的 简单 形式 为 : 


_ AE 
7 exp( ) (11. 32) 
其 中 


利用 概率 分 布 比 可 以 排除 对 前 分 函数 Z 的 依赖 。 
根据 构造 ， 转 移 概 率 是 非 负 的 且 归 整 化 为 单位 1， 如 式 (11. 14) 和 式 (11. 15) 的 要 求 。 进 一 
步 ， 它 们 满足 由 式 (11. 28) 所 定义 的 细节 平衡 原则 。 这 个 定律 对 热平衡 是 一 个 充分 条 件 。 为 了 
说 明 满 足 细节 平衡 原则 ， 我 们 给 出 下 列 的 考虑 : 
情况 1 AE 二 0。 假 设 从 状态 n 转移 到 状态 x;， 能 量变 化 AE 为 负 。 从 式 (11. 32) 我 们 发 
现 r/n >l, PAA FAA. 29) 得 到 
UP ii = Ati = Tj 


= Ti = 
GPa = G Ta) S iT ji 
Ti 


因此 当 AE 二 0 时 满足 细节 平衡 原则 。 
情况 2， A 巨 >0。 假 设 从 状态 zx; 到 状态 zi 的 能 量变 化 AE 为 正 ， 这 时 我 们 发 现 (xj /xi) 一 
1， 利 用 式 (11. 29) 得 到 


Tihs = m (ra) = TC iy NT 
和 
Ti Pi = TPs 
这 里 细节 平衡 原则 得 到 满足 。 


为 了 完整 起 见 ， 我 们 需要 指出 由 vy 表示 的 先 验 转移 概率 的 使 用 。 这 些 转移 概率 事实 上 是 
Metropolis 算法 中 的 随机 步 的 概率 模型 。 由 前 面 的 算法 描述 ,我们 回忆 随机 步 后 面 是 随机 决 
策 。 因 此 可 以 得 出 结论 ， 利 用 由 先 验 转移 概率 m EACL 29) 和 式 (11. 30) 定 义 的 转移 概率 Dy 
和 平稳 概率 分 布 ri 对 Metropolis 算法 来 说 确实 是 正确 的 选择 。 

我 们 可 以 得 出 由 Metropolis 算法 产生 一 个 马尔 可 夫 链 上 。 它 的 转移 概率 确实 收敛 到 一 个 独 
一 平稳 的 Gibbs 4} 77 (Beckerman, 1997). 


11.5 模拟 退火 


考虑 寻找 一 个 低能 量 系统 的 问题 ， 其 状态 由 一 个 马尔 可 夫 链 排序 。 由 式 (11. 11) 观 察 到 当 
温度 工 趋 近 于 零 ， 系 统 的 自由 能 量 下 趋 近 平均 能 量 〈 下 ) 。 由 F ~(E， 我 们 观察 到 由 上 自由 能 量 
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最 小 化 原则 ， 该 马尔 可 夫 链 的 平稳 分 布 〈 即 Gibbs 分 布 ) ， 当 T—0 HHH SDE AER CED 的 
全 局 极 小 点 。 换 句 活 说 ， 序 列 中 的 低能 状态 在 低温 时 受到 更 强 的 支持 。 这 些 观察 促使 我 们 提 
出 问题 : 为 什么 不 简单 地 应 用 Metropolis 算法 产生 大 量 的 代表 该 随机 系统 在 很 低温 度 下 的 构 
形 (Configuration)? 我 们 不 提倡 使 用 这 种 策略 是 因为 在 很 低温 度 下 马尔 可 夫 链 到 热平衡 的 收 
敛 速 度 特别 慢 。 而 提高 计算 效率 更 好 的 方法 是 在 较 高 温度 运行 随机 系统 ， 这 时 达到 平衡 态 的 
收敛 相 当 快 ， 接 着 随 温 度 的 精细 下 降 保 持 系统 的 平衡 态 。 也 就 是 ， 我 们 使 用 两 个 相关 成 分 的 
组 合 : 

1. 一 个 决定 温度 下 降 速 度 的 调度 表 。 

2. 一 个 算法 (如 Metropolis FH) 壕 代 求解 每 个 调度 表 给 出 的 新 的 温度 下 的 平衡 分 布 ， 
这 时 利用 前 面 温度 时 的 最 终 状 态 作 为 新 温度 时 的 起 始点 。 

我 们 刚才 提 到 的 两 步 格式 是 被 广泛 使 用 的 以 模拟 退火 * 著称 的 随机 松弛 技术 的 精华 〈Kirk- 
patrick 等 ，1983) 。 这 个 技术 的 名 字 是 类 比 物 理 / 化 学 中 的 退火 过 程 得 到 的 ， 在 物理 /化 学 的 退 
火 过 程 中 ， 我 们 从 高 温度 开始 退火 过 程 ， 接 着 慢 慢 降低 温度 同时 保持 热平衡 。 

模拟 退火 最 初 的 目标 是 寻找 刻画 复杂 大 系统 的 代价 函数 的 全 局 极 小 点 。 正 是 因为 如 此 ， 正 
提供 一 个 求解 非 凸 最 优化 问题 的 有 力 工 具 ， 这 由 下 面 的 简单 想法 所 导致 : 


当 优 化 一 个 非常 复杂 的 大 系统 〈 即 具有 许多 自由 度 的 系统 ) 时 不 要 求 总 是 下 降 而 是 试图 要 
求 大 部 分 时 间 在 下 降 。 


模拟 退火 在 两 方面 与 传统 的 迭代 优化 算法 不 同 : 

1. 算法 不 会 陷 人 局 部 最 小 ， 因 为 当 系统 在 非 零 温度 上 运行 时 脱离 局 部 最 小 总 是 可 能 的 。 

2. 模拟 退火 是 自 适 应 的 ， 在 高 温 时 看 见 系 统 的 终 态 的 大 致 轮廓 ， 而 它 的 具体 细节 在 低温 
度 时 才 呈 现 出 来 。 
退火 进度 表 

如 前 面 提 到 的 ， 模 拟 退 火 过 程 的 基础 是 Metropolis 算法 ， 其 间 温 度 工 慢 慢 下 降 。 也 就 是 
说 ， 温 度 工 起 调节 参数 的 作用 。 假 定 温度 下 降 没有 对 数 快 ， 则 模拟 退火 过 程 将 收 伺 于 一 个 有 
有 最 小 能 量 的 构 形 。 遗 憾 的 是 这 种 退火 进度 太 慢 了 一 一 慢 得 不 切实 际 。 实 际 上 ， 我 们 必须 求 诺 
于 算法 的 渐进 收敛 的 有 限时 间 有 逼近。 这 种 逼近 所 付出 的 代价 是 算法 不 再 以 概率 1 保证 找到 全 局 
最 小 点 。 然 而 算法 的 通 近 结果 在 许多 实际 应 用 上 能 产生 近似 最 优 和 解 。 

为 了 实现 模拟 退火 算法 的 有 限时 间 坎 近 ， 我 们 必须 设 定 一 系列 控制 算法 收敛 的 参数 ， 这 些 
参数 组 合成 所 谓 的 退火 进度 表 或 冷却 进度 表 。 退 火 进度 表 设 定 一 个 温度 的 有 限 序 列 值 ， 以 及 每 
一 温度 值 下 有 限 的 转移 尝试 的 次 数 。Kirkpatrick 等 (1983) 给 出 的 退火 进度 表 的 感 兴 值 的 参 


数 设 定 如 下 ": 
1. 温度 的 初始 值 。 温 度 的 初始 值 T, 选 得 足够 高 使 得 所 有 提出 的 转移 实际 都 能 被 模拟 退火 
算法 所 接受 。 


2. 温度 的 下 降 。 一 般 地 说 ,冷却 是 按 指数 形式 完成 的 ， 并 且 温 度 值 的 改变 量 都 很 小 。 特 

别 地 ， 下 降 函 数 定义 为 
T, = al gy sk = 125° C11. 34) 

其 中 a 小 于 但 接近 于 1。a 的 典型 值 介 于 0.8 和 0. 99 之 间 。 对 每 一 温度 ， 有 足够 的 转移 的 尝 
试 ， 使 得 平均 每 次 实验 有 10 次 转移 被 接受 。 

3. 温度 的 最 后 值 。 如 果 在 三 次 相连 的 温度 下 没有 得 到 预期 的 接收 次 数 ， 则 系统 被 冻结 且 
退火 停止 。 

后 一 个 标准 可 以 改进 ， 要 求 接受 率 小 于 一 预定 值 ， 而 接受 率 定义 为 转移 接受 的 次 数 除 以 所 
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出 转移 的 次 数 Johnson 4, 1989). 
模拟 退火 用 于 组 合 优化 

模 氢 退火 特别 适用 于 解 组 合 优化 问题 。 组 合 优 化 的 目标 是 针对 有 很 多 可 能 解 的 有 限 离 散 系 
统 ， 最 小 化 它 的 代价 函数 。 本 质 上 讲 模拟 退火 利用 Metropolis 算法 通过 多 粒子 物理 系统 和 组 合 
优化 问题 间 的 类 比 生 成 一 系列 解 。 

在 模拟 退火 中 ， 我 们 把 式 (11.5) 的 Gibbs 分 布 中 的 能 量 E; 解释 成 为 数值 的 代价 ， 
而 温度 工 解 释 为 控制 参数 。 在 组 合 优 化 问题 中 对 表 11.1 统计 物理 与 组 合 优化 之 间 的 对 应 
每 一 构 形 赋予 一 数值 的 代价 以 描述 这 个 特殊 的 构 形 
和 解 的 差异 。 模 拟 退 火 程序 中 下 一 个 需要 考虑 的 问 






问题 实例 








题 是 如 何 确认 构 形 和 从 已 有 构 形 以 局 部 方式 产生 新 8 ee 
的 构 形 。 这 就 是 Metropolis 算法 发 挥 作 用 之 处 。 温度 控制 参数 
因此 我 们 概括 统计 物理 的 术语 和 组 合 优化 术语 之 间 基态 能 最 小 代价 


的 关系 如 表 11.1 HR (Beckerman, 1997). 最 优 构 形 


11.6 Gibbs 抽样 


类 似 于 Metropolis 算法 ，Gibbs 抽样 器 " 生成 一 个 马尔 可 夫 链 ， 它 以 Gibbs 分 布 作为 平衡 
分 布 。 但 是 Gibbs 抽样 器 的 转移 概率 是 非 平 稳 的 ‘Geman and Geman, 1984), 在 最 后 的 分 析 
里 ， 关 于 Gibbs 抽样 和 Metropolis 算法 的 选择 取决 于 具体 问题 的 技术 细 闻 。 

为 了 继续 描述 这 个 抽样 格式 ， 考 虑 一 个 K 维 的 随机 向 量 关 ， 由 分 量 Xi Xa ,Xx 构成 。 
假定 在 给 定 X 的 其 他 分 量 时 我 们 知道 XX, 的 条 件 分 布 ,上 一 1,2,…,K 。 我 们 想 问 的 问题 是 : 对 
任何 上 怎样 获得 随机 变量 X, 的 边缘 密度 的 数值 估计 。 对 随机 向 量 的 每 个 分 量 ,， 在 已 和 X 
的 其 他 分 量 值 的 条 件 下 ，Gibbs 抽样 器 对 它 的 条 件 分 布 产生 一 个 值 。 特 别 地 ， 从 任意 构 形 
{zx1(0) ,zz (0),… 52K (0)} 开始 ， 我 们 在 Gibbs 抽样 的 第 一 次 迭代 时 做 下 列 采样 : 

zi(1) 是 在 已 知 za(0) ,zs(0),… ,zk(《0) 时 由 X 的 分 布 产 生 的 采样 。 

x2 (1) 是 在 已 知 X11) 923 (0) ,Tk CO) 时 由 Xz 的 分 布 产生 的 采样 。 


Xx, C1) 是 在 已 知 11 (1) stts C1) Za (0) stts ZK CO) 时 由 X: 的 分 布 产生 的 采样 。 

zx(1) 是 在 已 知 ziCUD zs (1 sre CD 时 由 Xxk 的 分 布 产生 的 采样 。 

在 第 二 次 迭代 和 和 其 他 的 每 次 抽样 闪 代 中 我 们 用 这 种 方式 进行 处 理 。 以 下 两 点 需要 特别 
注意 : 

1. 随机 向 量 X 的 每 个 分 量 是 以 自然 序列 “访问 ”的 ， 每 次 选 代 产 生 总 共 KK 个 新 的 变量 值 。 

2: 对 于 k = 2,3.°°5K , 在 对 X: 采样 新 值 时 直接 利用 分 量 Xx Ha Nie. 

由 这 个 讨论 我 们 看 到 Gibbs RRBRAO HERRERA. AAEH n 次 迭代 后 ， 我 们 得 到 
K 个 变化 量 ; Xi Ca) ,Xs Cn),… ,Xx ln) 。 在 相当 温和 的 条 件 下 ， 以 下 三 个 定理 对 Gibbs 抽样 成 
wy (Geman and Geman,1984;Gelfand and Smith ,1990) : 

L KAER, Á k=1,2 Kin PRAM, OER Xn) KAKA X 的 其 
实 概率 分 布 ; 也 就 是 说 ， 

limP( Xp” < z|z (0) = Px, (2), M k = 1,2, K (11. 35) 

其 中 Py (x) WX, MR RR, 

事实 上 ， 在 Geman and Geman(1984) 中 证 明了 更 强 的 结 采 。 特别 地 ， 不 要 求 随机 问 量 XX 
的 每 个 分 量 以 自然 顺序 被 重复 访问 ， 任 意 的 访问 方式 只 要 不 依赖 于 变量 的 值 且 X 的 每 个 分 量 饿 
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“无 限 地 经 常 ” 访 问 ， 则 Gibbs 抽样 收敛 性 仍 成 立 。 

2. 收 黎 速度 定理 。 随 机 变量 Xn). Xn) Xen) 的 联合 概率 分 布 以 nn 的 几何 级 数 速 
ERAF X Xs Xx 的 联合 分 布 函数 。 

这 个 定理 假设 X 的 分 量 以 自然 顺序 访问 。 但 是 当 任意 的 但 无 限 地 经 常 访问 时 ， 收 和 敛 速度 需 
要 较 小 的 调整 

3. 遍历 定理 。 对 任何 (例如 对 于 随机 变量 X ,XX;，… ,Xx ) 的 可 测 函 数 g， 它 的 期 望 存 
在 ， 有 


lim Shek Cz) X> (1) 9 ;人 Kk (2)) — EL g(x, » Xz att” Xx) | C11. 36) 


以 概率 1 〈( 即 几乎 肯定 ) 实现 。 

遍历 定理 告诉 我 们 怎样 利用 Gibbs 采样 的 输出 获得 所 期 望 的 边缘 密度 的 数值 估计 。 

在 Boltzmann 机 中 使 用 Gibbs 采样 对 有 关 隐 藏 神经 元 的 分 布 进行 采样 ;这 种 随机 机 融 将 在 
下 一 节 讨 论 。 对 于 使 用 二 值 单元 的 随机 机 器 〈 即 Boltzmann 机 ) 来 说 ， 值 得 注意 的 是 Gibbs $ 
样 正 好 和 Metropolis 算法 的 一 个 变 体 完全 一 样 。 在 Metropolis 算法 的 标准 形式 中 我 们 以 概率 1 
下 山 ， 相 反 地 在 Metropolis 算法 的 另 一 个 形式 中 ， 我 们 以 1 或 能 量 差 的 指数 《 即 上 出 规则 的 补 
充 ) 的 概率 下 山 。 换 句 话 说， 如 果 一 个 变化 降低 了 能 量 王 或 没有 变化 时 ， 则 这 个 变化 被 接 
受 ; 如 果 变 化 升 高 了 能 量 ， 它 是 以 exp( 一 AE) 的 概率 被 接受 ， 否 则 被 拒绝 ， 而 以 旧 的 状态 重 
复 (Neal, 1993), 


11.7 Boltzmann 机 


Boltzmann 机 是 由 随机 神经 元 组 成 的 二 值 随 机 机 器 ， 随 机 神经 元 以 概率 方式 取 两 个 可 能 状 
态 之 一 。 这 两 个 状态 可 以 指定 为 十 1， 表 示 “ 开 ”状态 ， 指 定 为 一 1 表示 “ 关 ” 状 态 ， 或 分 别 
用 1 和 0 表示 。 我 们 将 采用 前 面 的 记号 。Boltzmann 机 田 一 个 突出 的 特征 就 是 它 的 神经 元 间 使 
用 对 称 的 突 触 连接 ， 这 种 形式 的 突 触 连接 也 有 统计 物理 方面 的 考虑 。 

Boltzmann 机 的 随机 神经 元 分 成 两 部 分 功 
能 组 ， 如 图 11.5 所 示 为 可 见 部 分 和 隐藏 部 分 。 
可 见 神经 元 : 提供 网 络 和 它 运行 环 境 之 间 的 一 个 
界面 。 在 网 络 的 训练 阶段 ， 所 有 可 见 神经 元 都 
被 钳制 在 环境 所 决定 的 特定 状态 。 另 一 方面 ， 
隐藏 神经 元 总 是 自由 运行 的 ， 它 们 用 来 解释 环 
境 输 入 向 量 包含 的 固有 约束 。 隐 藏 神经 元 通过 
捕获 钳制 向 量 中 的 高 阶 统计 相关 来 完成 这 项 任 
务 。 这 里 所 叙述 的 网 络 代表 Boltzmann 机 的 一 种 
特殊 情况 。 它 可 以 看 成 是 对 某 确定 概率 分 布 建 模 
的 无 监督 学 习 程 序 ， 该 确定 概率 分 布 决定 于 在 可 
见 神经 元 上 以 合适 的 概率 钳制 模式 。 这 样 做 ， 网 


可 见 神经 元 





11.5 Boltzmann 机 体系 结构 图 ; 天 为 可 见 神 经 
元 数目 ， 工 为 隐藏 神经 元 数目 。 了 Boltzmann 


络 能 起 到 模式 完 形 (pattern completion) 的 作用 。 的 优点 是 ，1. 可 见 神经 元 和 隐藏 神经 元 的 
特别 地 ， 当 一 部 分 携带 信息 的 向 量 错 制 在 可 见 神 连接 是 对 称 的 。2. 对 称 连接 延伸 到 可 见 神 
经 元 的 子 集 上 ， 如 果 网 络 已 经 恰当 地 学 会 了 训练 经 元 和 隐藏 神经 元 


分 布 ， 这 时 网 络 能 够 对 剩 下 的 可 见 神 经 元 网 络 给 出 它们 的 恰当 的 值 ， 起 到 模式 完 形 的 作用 。 
Boltzmann 机 学 习 的 主要 目的 是 产生 一 个 神经 网 络 ， 根 据 Boltzmann 分 布 对 输入 模式 进行 
正确 的 建 模 。 在 这 种 学 习 的 应 用 中 ， 假 设 两 种 情况 : 
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L 每 个 环境 输入 向 量 (模式 ) 持续 足够 长 的 时 间 ， 人 允许 网 络 达到 热平衡 。 

2. 环境 向 量 钳制 在 网 络 可 见 单 元 上 的 次 序 是 没有 任何 结构 的 。 

一 组 特定 的 突 触 权 值 当 它 导出 的 可 见 单元 状态 的 概率 分 布 ( 当 网 络 自 由 运行 时 ) 和 可 抑 单 
元 被 环境 输入 向 量 所 钳制 时 的 状态 概率 分 布 完全 一 样 ， 我 们 说 它 构 造 了 环境 结构 的 一 个 完整 模 
型 。 一 般 情 况 下 ， 除 非 隐藏 单 元 数目 是 可 见 单元 数目 的 指数 ， 否 则 不 可 能 得 到 完整 模型 。 但 
是 ， 如 果 环 境 有 规则 的 结构 ， 网 络 利 用 隐藏 单元 捕获 这 些 规则 ， 这 时 利用 较 小 能 处 理 的 隐藏 神 
经 元 数目 可 以 对 环境 取得 一 个 好 的 匹配 。 
Boltzmann 机 的 Gibbs 抽样 和 模拟 退火 


A x 表示 Boltzmann 机 的 状态 向 量 ， 它 的 分 量 zx; 表示 神经 元 i 的 状态 。 状 态 x 代表 随机 问 
量 久 的 一 次 实现 。 从 神经 元 i 到 神经 元 7 的 突 触 连接 记 为 W;， 满 足 : 
wi = wy» 对 于 所 有 ij (11. 37) 
和 
w: =0, 对 于 所 有 i (11. 38) 
式 (11. 37) 描 述 对 称 性 ， 而 式 (11. 38) 强 调 无 自 反 馈 。 偏 置 可 以 利用 一 个 输出 恒 为 十 1 R E 
到 神经 元 ;} (对 所 有 D 的 连接 权 值 wwe 表示。 
类 似 于 热 动 力学 ，Boltzmann 机 的 能 量 可 定义 为 : 


E(x) 一 一 + 2 DWET: (11. 39) 


利用 式 (11. 5) 的 Gibbs 分 布 ， 我 们 可 以 定义 网 络 〈 假 定 处 在 温度 工 的 平衡 态 ) 在 状态 x 的 概率 
如 下 : 


P(X =x) 一 Fexp(— =) (11. 40) 
其 中 Z 为 剖 分 函数 。 
为 了 简化 表示 ， 定 义 单个 事件 A 及 联合 事件 B AC 如 下 : 
A:X; =; 
Bi{X; = 2;}-Liwith i Fj 
C:{X; = eo 


实际 上 ， 联合 事件 B 排斥 A ， 而 联合 事件 C 包括 A 和 B。B 的 概率 是 C 关于 A 的 边缘 概率 。 
因此 ， 利 用 式 (11. 39) 和 式 (11. 40)， 我 们 可 写作 : 
1 
P(O) = P(A,B) = Fexp( 57 > Dieses) (11. 41) 


i#j 


和 
P(B) = DPB = ze ay > Dn ) (11. 42) 


在 式 (11. 41) 和 式 (11. 42) 中 的 指数 可 以 表示 成 两 项 之 和 ， 一 项 与 = BH WAT z 无 
关 。 包 含 zi 的 项 为 : 


oa D WiZ; 
ix} 
P(A,B) _ 1 





P(A|B) = —_ 
P(B) 1 二 exp( 一 对 > unzi 


ix; 
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也 就 是 可 写成 : 
P(X; = x | (X; = A a) = o( = 六 (11. 43) 
其 中 g(*) 为 它 变 元 的 logistic 函数 ， 表 示 为 
-1 __ 
olv) ET (11.44) 


注意 ,x 虽然 在 一 1 和 十 1 间 变 化 ， 但 当 " 充 分 大 时 ， 整 个 变量 OS Dwr 可 在 一 2 和 


十 ce 之 间 变 化 ， 如 图 11. 6 所 描画 的 。 同 时 注意 ， 在 推导 式 (11. 4M, KARR Z， 这 是 
高 度 期 望 的 ， 因 为 对 于 非常 复杂 的 网 络 直接 计算 Z 是 不 现 
SEAS 

利用 Gibbs 抽样 表示 联合 分 布 P(A，B)。 基 本 上 ， 如 
11. 6 节 所 解释 的 那样 ， 这 个 随机 模拟 开始 时 给 网 络 赋予 任 
一 状态 ， 神 经 元 以 它们 的 自然 顺序 依次 重复 访问 ， 每 次 访 
问 ， 选 择 一 个 神经 元 ， 根 据 其 他 神经 元 的 值 确定 该 神经 元 
状态 新 值 的 选择 概率 。 假 定 这 个 随机 模拟 进行 足够 长 的 时 
间 ， 则 网 络 将 达到 在 温度 工 下 的 平衡 。 图 11.6 Sigmoid 形状 函数 PCr) 

遗憾 的 是 到 达 热 平衡 的 时 间 可 能 非常 长 。 为 了 克服 这 个 困难 ， 如 同 在 11. 5 节 所 解释 的 那 
样 ， 对 有 限 温 度 序列 To Tiot Tima ， 使 用 模拟 退火 。 特 别 地 ， 温 度 被 初始 化 为 一 个 高 的 值 
T。， 因 此 可 迅速 到 达 热 平衡 。 然 后， 温度 了 逐渐 降低 至 最 后 值 Ta ， 这 时 神经 元 状态 将 A 
希望 ) 达到 它们 的 边缘 分 布 。 

Boltzmann 学 必 规 则 

因为 Boltzmann 机 是 一 种 随机 机 器 ， 它 自然 依赖 于 用 概率 论 评价 其 性 能 。 这 种 标准 之 一 是 
WR Me? 。 在 此 基础 上 ， 根 据 最 大 似 然 原则 ，BRoltzmann 学 习 的 目标 是 最 大 化 似 然 函 数 或 等 
价 的 对 数 似 然 函 数 ， 这 个 原则 在 第 10 章 中 讨论 过 。 

令 J 表 示 感 兴趣 的 概率 分 布 抽样 所 组 成 的 训练 样本 。 假 设 它们 都 是 二 值 的 。 训练 样本 允许 
重复 ， 但 必须 和 它们 发 生 的 概率 成 比例 。 令 状态 向 量 x HTE x, 表示 可 见 神 经 元 状态 。 回 量 x 
的 剩余 部 分 表示 隐藏 神经 元 的 状态 。 状 态 向 量 x，x 和 xs 分 别 表示 随机 回 量 和 ， AX, 的 
实现 。Boltzmann 机 的 运行 分 成 两 个 阶段 : 

L 正 向 阶段 。 此 时 网 络 在 钳制 环境 下 〈 即 在 训练 集 了 的 直接 影响 下 ) 运行 。 

2. 负 向 阶段 。 在 第 二 阶段 ， 网 络 允 许 自 由 和 运行， 因此 没有 环境 输入 。 

对 整个 网 络 给 定 突 触 间 权 值 w， 可 见 神经 元 状态 为 x 的 概率 是 P(X 一 x,)。 训 练 集 9 中 包 


含 许多 可 能 值 xx ， 假 定 它们 是 统计 独立 的 ， 总 体 的 概率 分 布 是 析 因 分 布 || P=). HT 
x ET 


写 出 对 数 似 然 函数 LC(w)， 对 析 因 分 布 取 对 数 且 将 w 看 作 未 知 的 参数 向 量 。 因 此 可 以 写成 
L(w) = log [| P(X, = x.) = > logP(X, = x.) (11. 45) 
„ET x ET 





为 了 通过 能 量 函数 形成 边缘 概率 POX =x.) 的 表达 式 ECx) ， 利 用 以 下 两 点 ， 
1. HR (11. 40)， 概 率 P(X 一 Xx) 等 于 元 exp( 一 E(x)/T)。 


2. HEX, REHE x 是 属于 可 见 神经 元 的 状态 x, 和 属于 隐藏 神经 元 的 状态 xs 的 联 立 组 
合 。 因 此 可 见 神经 元 处 于 状态 x, 与 任何 xp 的 概率 为 : 
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P(X =) = 7 Die (=) (11. 46) 
其 中 随机 向 量 X, Æ XA. HOAR ZELK: 
Z= eae) (11. 47) 
因而 将 式 (11. 46) 和 式 (11.47) 代 人 式 (11. 45), 得 出 对 数 似 然 函 数 所 期 望 的 表达 式 : 
L(w) = Z (log Dexp(— Z2) log Dy exp(— E) ) (11. 48) 


对 w 的 依赖 包含 在 能 量 函 数 ECx) 中 ， 如 式 (11. 39) Bra. 
依据 式 (11.39)， 求 工 (w) 对 vw; 的 微分 ， 经 过 一 些 运 算 后 我 们 得 到 下 列 结 果 (参看 习题 
11.9): 








eae D mle, =x) nz) PPX = Darr, ) (11. 49) 


ow res “p 
为 了 简单 起 见 ， 我 们 引入 两 个 定义 : 
l. Oi 一 《ZiTi > 一 >», POG = x, |X, = x,) 22; (11. 50) 
x EF Xp 
”Ns (11. 51) 


x ET x 


从 宽松 意义 上 我 们 可 以 将 第 一 项 平均 值 pi 看 成 号 火 率 的 平均 ， 或 神经 元 i 和] A 
X. IRAE TEIRA A TIE Pe. RKM, BORA o 可 看 成 神经 元 
7 的 状态 间 的 相关 性 ， 此 时 网 络 自由 运行 或 者 说 是 处 于 人 负 向 阶段 。 利 用 这 些 定义 ， ace 
(11.49.40 F: 

aL(w) _ 1 


T oi — pi) (11. 52) 
Boltzmann JL J W A BERKER BUURA RA 工 (w) ， 我 们 可 以 利用 梯度 下 降 法 达到 这 一 点 ， 写 成 
.OL ) 人 
Aw = ea nO EE Oji) C11. 93) 
其 中 7 是 学 习 率 参数 ; 它 通过 e 和 运行 温度 工 定 义 为 
7 一 = (11.54) 


式 (11.53) 的 梯度 下 降 规 则 称 为 Boltzmann 学 习 规 则 。 这 里 所 叙述 的 学 习 是 集中 完成 的 ; 即 突 
触 权 值 的 改变 是 在 整个 训练 样本 集 都 给 出 的 情况 下 进行 的 。 


Ai 


et (11. 53) 描 述 的 Boltzmann 机 学 习 规 则 的 简易 性 归 因 于 这 样 的 事实 ， 即 在 神经 元 的 两 种 
不 同 操作 条 件 使 用 局 部 可 观测 量 ， 这 两 个 不 同 条 件 为 : 一 部 分 钳制 运行 ， 另 外 的 自由 运行 。 规 
则 另 一 个 有 趣 的 特征 是 神经 元 i 和 7 之 间 的 突 触 权 值 的 调整 规则 是 独立 于 神经 元 的 可 见 与 否 
的 ， 不 管 它们 可 见 或 都 不 可 见 ， 这 一 点 可 能 令 人 吃惊 。Boltzmann 学 习 的 所 有 这 些 有 益 的 特征 
归功 于 Hinton and Sejnowski(1983, 1986) 的 关键 性 见解 ， 它 们 将 Boltzmann 机 的 抽象 数学 模 
型 和 神经 元 网 络 在 以 下 两 点 上 联系 起 来 : 

。 描述 一 个 神经 元 的 随机 性 的 Gibbs 分 布 。 

- 定义 Gibbs 分 布 的 基于 统计 物理 学 的 能 量 阻 数 式 (11. 39). 

但 是 从 实际 观点 看 ， 典 型 地 ， 我们 发 现 Boltzman 机 中 学 习 过 程 是 很 慢 的 ， 特 别 当 机 器 中 
使 用 的 隐藏 神经 元 个 数 多 的 时 候 . 这 个 令 人 不 快 的 特征 的 原因 是 因为 机 器 需要 很 长 一 段 时 间 来 
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达到 平衡 分 布 ， 这 通常 在 可 见 单元 不 被 钳制 的 时 候 经 党 发 生 。 

虽然 如 此 ， 过 去 的 这 些 年 里 ， 对 随机 机 器 的 研究 持续 关注 ， 这 些 关 注 分 享 古 典 Boltzman 
机 对 二 进 制 问 量 学 习 概率 分 布 的 能 力 ， 但 也 能 够 实现 以 下 两 个 功能 : 

1. 忽略 Boltzman 机 人 负 向 学 习 ， 负 向 学 习 为 时 间 的 增加 而 人 负责。 同时 找到 一 些 用 于 运用 控 
制 学 习 过 程 的 其 他 方法 。 

2. 在 密 连 接 网 络 中 的 有 效 操 作 

在 下 面 的 两 节 ， 我 们 介绍 两 个 通过 不 同方 式 来 解决 这 两 个 实际 问题 的 方法 。 


11.8 logistic 信和 度 网 络 


第 一 代 logistic 信 度 网 络 由 Neal Æ 1992 年 所 发 展 ，Boltzmann 机 中 对 称 连 接 被 有 四 连接 
取代 ， 从 而 形成 无 环 图 ， 这 也 使 Neal 的 
logistic 信 度 网 络 称 为 有 向 信和 度 网 络 Cdi- 
rected belief net); 今后 这 两 个 术语 可 替换 
地 使 用 。 特 别 地 ， 一 个 logistic 信和 度 网 络 由 
多 层 结构 组 成 ， 如 图 11.7 所 示 。 机 器 具有 
无 环 的 性 质 使 得 概率 计算 简单 。 类 似 于 
Boltzmann 机 ， 网 络 利 用 式 (11.43) 的 lo- 
gistic 函数 计算 一 个 神经 元 受到 它 BOWE 
导 局 部 域 刺 激 时 的 条 件 概 率 。 输入 

S [a] A X 由 二 值 随 机 变量 X, X233 
Xn 组 成 ， 它 定义 由 N 个 随机 神经 元 构成 
的 一 个 logistic tR EMA. Æ X PMU 





Xi 的 双亲 (A117 PAJ AD WA: 图 11.7 logistic 信和 度 网 络 
pa (X;) Z {XiX Xa? (11. 55) 
也 就 是 说 ， 其 中 随机 向 量 X 最 小 的 子 集 (rs roe ,zx;}， 它 的 条 件 概 率 
POX, = x; |X1 =a. Xi = xi) = P(X; = z |pa(X;)) (11. 56) 


参考 图 11. 7,， 例 如， 节点 i 是 节点 j 的 双亲 节点 ， 因 为 节点 i 到 节点 7 是 有 向 连接 。logistic 
信和 度 网 络 的 一 个 重要 优点 就 是 它 能 清楚 揭示 输入 数据 的 固有 概率 模型 的 条 件 依赖 性 。 特 别 
地 ， 第 j 个 神经 元 被 激发 的 概率 由 logistic 函数 定义 ， 其 中 wi 是 从 神经 元 i 到 神经 元 j 的 突 
触 权 值 ， 条 件 概率 仅 依赖 于 pa(X;) 的 输入 加 权 和 。 因 此 ， 式 (11. 56) 提 供 信 和 度 在 网 络 中 传播 
的 基础 。 

在 两 种 非 空 uD 条件 下 进行 计算 logistic 信 度 网 络 的 条 件 概 率 : 

1. wi 一 0， 对 所 有 不 属于 pa(X;) 的 XX;， 这 一 点 由 双亲 的 定义 可 得 。 

2. wi 二 0， 对 所 有 ij, BEA EH logistic 信和 度 网 络 是 有 向 无 环 图 这 个 事实 可 得 。 

正如 Boltzmann 机 一 样 ， 我 们 导出 logistic 信 度 网 络 所 期 望 的 学 习 规 则 时 仍然 最 大 化 对 数 
似 然 函数 ， 对 于 样本 集合 9 最 大 化 式 (11. 45) 中 对 数 似 然 函 数 式 LC(w)。 同 时 最 大 化 通过 定义 如 
下 突 触 权 值 rw 的 变化 伴随 着 在 概率 空间 中 使 用 梯度 下 降 算 法 : 


其 中 7 是 学 习 率 参数 ， 而 权 值 向 量 w 表示 整个 网 络 。 
但 是 ，logistic 信 度 网 络 学 习 过 程 的 一 个 严重 缺陷 是 当 它 运用 到 密 连 接 网 络 中 的 时 候 ， 隐 
藏 神经 元 的 后 验 概率 的 计算 很 棘手 ， 除 非 在 一 些 简 单 的 应 用 中 ， 例 如 带 加 性 高 斯 噪声 的 线性 模 
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型 。 和 Boltzmann 机 一 样 ，Gibbs 抽样 同样 可 以 用 于 近似 后 验 概 率 ， 但 是 在 logistic 信和 度 网 络 
中 使 用 Gibbs 抽样 被 认为 更 加 复杂 。 


11.9 深度 信和 度 网 络 


为 了 克服 logistic(directed) 信和 度 网 络 中 推理 应 用 的 困难 的 缺点 ，Hinton 等 (2006) 发 展 了 
一 种 新 的 logistic 信和 度 网 络 ， 而 这 种 网 络 中 推理 很 容易 完成 。 这 个 模型 与 logistic 信和 度 网 络 中 一 
样 ， 模 型 可 以 通过 同样 的 方式 学 习 得 到 ， 除 了 在 最 顶层 的 不 同 之 外 ， 它 (以 这 种 新 方式 ) 形成 
了 无 向 联想 记忆 。 事 实 上 ， 正 是 这 种 特点 使 这 种 新 的 网 络 被 称 为 深度 信 度 网 络 。 

在 Smolensky(1986) 中 首先 描述 深度 信 度 网 络 建立 在 一 个 神经 网 络 结构 上 ; 同时 这 个 结 
构 被 称 为 “小 风琴 Charmonium) 。” 这 种 “小 风琴 ”的 特别 之 处 在 于 在 可 见 神 经 元 和 隐藏 神经 
元 之 间 没 有 连接 ; 否则 ， 它 将 和 Boltzmann 机 一 样 在 可 见 神经 元 和 隐藏 神经 元 之 间 使 用 对 称 连 
we PRAT. et “LE” th HE Hinton 等 (2006〉 中 被 命名 为 受 限 Boltzmann 机 
(restricted Boltzmann machine, RBM), RL 
-一眼 所 见 ， 可 能 令 人 惊讶 地 发 现 : 一 个 对 称 连 
接 模 型 (如 受 限 Boltzmann 机 ) 可 以 如 同 lo- 
gistic 信和 度 网 络 一 样 学 习 一 个 有 向 产生 模型 。 

由 于 在 RBM 中 隐藏 神经 元 之 间 没 有 连接 ， 
也 因为 在 可 见 神经 元 和 隐藏 神经 元 间 的 连接 是 。 ame 
inh GEA 11.8)， 则 给 定 可 见 状 态 ， 隐 
藏 神经 元 的 状态 相互 之 间 是 条 件 独 立 的 。 所 以 ”图 11.8 RBM 的 神经 结构 。 与 图 11.5 比较 ， 我 们 可 
给 定 一 个 向 量 钳制 在 可 见 神经 元 之 后 ，RBM diy 
能 够 抽取 后 验 分 布 中 无 偏见 的 样本 。RBM 的 
这 个 特点 使 得 其 对 相应 的 有 向 信 度 网 络 具有 很 大 优势 (Hinton, 2007), 

一 个 感 兴趣 的 地 方 就 是 如 图 11. 9 所 示 的 权 值 固定 的 无 限 的 logistic 信和 度 网 络 和 图 11.8 所 
示 的 单 RBM 是 等 价 的 。 
受 限 Boltzmann 机 中 最 大 似 然 学 习 

由 式 (11.44) 中 的 logistics ex BLK iE X 隐藏 层 = 
RBM 隐藏 神经 元 被 激活 的 概率 。 令 x RMA 
个 数据 向 量 被 钳制 在 可 见 层 零 时 刻 的 值 。 然 后 


隐藏 层 








学 习 在 下 面 两 个 操作 之 间 来 回 交 蔡 进 行 。 BRER 
。 给 定 可 见 状 态 ， 并 行 更 新 所 有 隐藏 状态 。 
© 以 相反 方式 做 同样 的 事 时 :给 定 隐 藏 
状态 ， 并 行 更 新 所 有 可 见 状 态 。 隐藏 层 1 
A w 是 整个 网 络 的 权 什 向量。 相应 地 , 我 
们 发 现 最 大 似 然 函 数 LCw) 对 应 的 权 值 w 的 可 见 层 1 
梯度 ，w; 是 连接 可 见 单元 i 和 隐藏 单元 7 的 对 
PAE. WF: 
oa = pP—p? A157) ii 
其 中 oO Ao AP RTE MAIC Mj EE AA aT LO 





无 穷 远 时 间 的 平均 相关 性 (Hinton |, 2006; 
Hinton，2007)。 除 了 不 重要 的 术语 变化 ,图 11.9 使 用 无 限 深度 的 Jogistic 信和 度 网 络 自 顶 向 下 学 习 
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式 (11. 57) 与 式 (11. 52) 中 Boltzmann 机 的 数学 形式 相同 。 但 是 因为 我 们 不 在 RBM 中 做 类 上 比 ， 
式 (11.57) 没 有 使 用 温度 作为 参数 。 
深度 信和 度 网 络 的 训练 

深度 信 庶 网络 的 训练 在 逐 层 的 基础 上 进行 ， 如 下 (Hinton 等 ，2006; Hinton, 2007): 

1. 受 限 Boltzmann 机 是 直接 在 输入 数据 上 训练 的 ， 所 以 使 RBM 的 隐藏 层 随 机 神经 元 很 有 
可 能 获得 刻画 输入 数据 的 重要 特征 。 所 以 我 们 称 隐 藏 层 为 次 度 信 度 网 络 的 第 一 隐藏 层 。 

2. 经 过 训练 的 特征 的 激活 然后 被 作为 “输入 数据 ”， 它 被 用 于 第 二 个 RBM 的 训练 。 事 实 
上 ， 刚 描述 的 过 程 可 以 视 为 从 特征 中 学 习 特 征 的 过 程 之 一 。 这 个 观点 也 许 最 早 可 以 追溯 到 Sel- 
fridge(1958) 的 一 篇 早期 的 文章 ， 它 提出 了 一 个 称 之 为 “pandeminium” 模式 识别 系统 。 

3. 这 个 过 程 一 直 持 续 到 深度 信 度 网 络 中 一 些 规定 的 个 数 的 隐藏 层 得 到 训练 。 

这 里 需要 注意 的 重要 特性 就 是 : 每 次 一 个 新 的 特征 层 加 入 到 深度 信和 度 网 络 中 的 时 候 ， 原 始 
训练 数据 的 对 数 概 率 的 可 变 下 界 就 得 到 改善 〈Hinton 等 ，2006)。 
产生 模型 

如 图 11. 10 所 示 训 练 一 个 具有 三 个 隐藏 层 的 深度 信和 度 网 络 。 向 上 的 箭头 指示 了 从 特征 中 学 
习 到 的 特征 计算 所 得 的 权 值 。 这 些 权 值 的 功能 是 推理 在 深 ee 
度 信 度 网 络 中 当 一 个 数据 钳制 在 可 见 神 经 元 时 隐藏 层 中 的 
二 进 制 特征 值 。 隐藏 层 2 

产生 模型 是 由 图 11. 10 中 的 无 阴影 的 箭头 标识 。 注 意 
产生 模型 不 包括 由 向 上 箭头 代表 的 自 底 向 上 的 连接 ; (keel 
重要 的 ， 它 确实 包括 在 顶层 RBM( 如 层 2 和 层 3) 的 自 底 向 
上 的 连接 ， 这 些 连 接 起 着 双边 联想 记忆 的 双重 作用 。 当 自 


“i Sit, WE RBM 从 隐藏 层 学 习 。 当 自 上 sey 图 11.10 一 个 混合 产生 模型 ， 其 中 最 
底 回 上 学 习 时 ， 顶 技 从 隐藏 层 学 习 。 当 自 上 而 下 学 ee ena 





可 见 层 


时 ， 顶 层 RBM 作为 产生 模型 的 起 始 茹 。 mann 机 ， 底 下 两 层 为 有 向 
如 图 11. 10 所 示 ， 数 据 产生 过 程 如 下 : 模型 。 灰 色 箭 头 不 属于 产生 
1. 通过 使 用 如 图 11. 11 所 示 的 方式 多 次 交 克 的 Gibbs 模型 ; 它们 用 来 对 给 定 的 数 
取样 后 ， 可 以 从 顶层 RBM 获得 一 个 平衡 样本 ， 取 样 过 程 可 据 推理 特征 数据 ,但 是 它们 


以 进行 是 够 长 的 时 间 直 到 平衡 。 RE REE 
2， 从 可 见 顶 层 RBM “可 见 ”单元 开始 自 顶 向 下 的 一 次 扫描 用 来 随机 挑 取 网 络 中 所 有 另外 
隐藏 神经 层 的 状态 。 


时 间 二 0 f=l f= 





Fey fa ¢=0 (=] /=2 i=% 
图 11.11 一 个 RBM 中 交替 Gibbs 取样 过 程 的 图 例 。 在 足够 多 次 后 ， 当 前 模型 参数 定义 的 静态 分 布 抽 
取 可 见 神经 元 向 量 和 隐藏 神经 元 回 量 
数据 产生 是 很 慢 的 ， 因 为 ， 首 先 所 有 顶层 RBM 必须 达到 平衡 分 布 。 幸 运 的 是 ,产生 不 是 
供 感知 推理 或 者 学 习 之 用 。 
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混合 学 习 过 程 
深度 信 度 网 络 中 的 每 个 RMB 将 模型 化 自身 “可 见 ” 数 据 的 任务 分 成 两 个 子 任务 ， 如 图 
11. 12(Hinton, 2007) 所 示 : 给 定 权 值 向 量 w 产 生 
。 FES] 机 器 学 习 产 生 权 值 w， 把 具 一 个 隐藏 状态 的 概率 
体 在 隐藏 神经 元 上 的 后 验 分 布 转化 到 在 reat 
可 见 神 经 元 上 的 对 数据 的 近似 分 布 。 FRR IA TEI AB 
。 子 任务 2 同样 的 权 值 集合 ， 以 w 表示 ， 
同样 定义 了 隐藏 数据 癌 量 上 的 先 验 分 
布 。 对 这 个 先 验 分 布 的 采样 需要 使 用 大 
fa BY Gibbs 取样 (如 图 11. 11 所 示 )。 但 
是 这 恰好 是 此 复杂 的 先 验 概 率 的 出 现 方 
式 ， 它 负责 使 RBM 中 的 推理 变 得 如 此 
简单 。 在 子 任务 2 下 ， 当 下 一 个 RBM 学 习 之 后 ， 这 个 特殊 的 RBM 用 一 个 新 的 先 验 概 
率 取 代 了 复杂 的 先 验 概率 (用 w 表示 )， ee mina 
藏 神经 元 的 聚集 的 后 验 分 布 。 
结束 滞 
1. 除了 最 项 的 两 层 ， 深 度 信 和 度 网 络 是 一 个 多 层 的 logistic 信和 度 网 络 ， 其 中 网 络 一 层 和 向 后 
另外 一 层 有 方 同 性 连接 。 
2. 学 习 过 程 无 监督 地 逐 层 自 底 而 上 。 由 于 学 习 过 程 以 这 种 方式 进行 ， 感 知 推理 在 深度 信 
度 网 络 中 很 容易 ， 简单 地 说 ， 推 理 过 程 包括 一 个 自 底 而 上 的 传递 ， 
3. 深度 信和 度 网 络 为 设计 者 提供 很 大 自由 空间 。 对 设计 者 来 说 如 何 创 造 性 地 使 用 这 个 日 由 
是 个 挑战 。 


11. 10 确定 性 退火 


现在 进入 本 章 最 后 一 个 论题 一 一 确定 性 退火 。 在 115 节 我 们 讨论 模拟 退火 ， 这 个 随机 松 
弛 技巧 提供 解决 非 凸 优化 问题 的 一 个 强 有 力 方 法 。 但 是 必须 仔细 选择 退火 进度 表 。 符 别 地 ， 只 
有 当 退 火 温度 的 下 降 率 不 比 对 数 更 快 时 ， 全 局 最 小 才能 得 到 保证 。 这 种 要 求 使 得 在 许多 应 用 中 
用 模拟 退火 变 得 不 现实 。 模 拟 退 火 的 运行 是 在 能 量 曲面 COW) 上 进行 随机 移动 。 相 反 ， 在 确 
定性 退火 时 ， 随 机 性 以 某 种 形式 结合 到 能 量 或 代价 函数 中 ， 因 此 在 一 系列 下 降温 度 情 况 下 进行 
确定 性 最 优化 (Rose 等 ，1990; Rose, 1998), 

下 面 我 们 在 无 监督 学 习 任 务 〈 即 聚 类 " ) 的 背景 下 ， 倒 述 确 定性 退火 的 思想 。 
通过 确定 性 退火 聚 类 

在 第 5 章 讨 论 过 聚 类 的 思想 。 那 里 ， 聚 类 就 是 对 于 给 定 的 数据 分 成 子 组 ， 而 每 块 尽量 相同 
或 者 相似 。 聚 类 是 典型 的 非 凸 优化 问题 ， 因 为 实际 上 用 于 聚 类 的 畸变 函数 都 是 输入 数据 的 非 口 
函数 (第 10 章 中 描述 的 最 优化 流 形 表示 的 数据 是 个 例外 )。 同 时 了 畸变 函数 关于 输入 的 曲线 充满 
局 部 最 小 ， 这 使 得 求全 局 最 小 变 得 更 为 困难 。 

在 Rose (1991, 1998) 中 通过 剖 分 的 随机 化 或 等 价 的 编码 规则 的 随机 化 ， 对 聚 类 描绘 一 
个 概率 框架 。 这 里 利用 的 主要 原则 就 是 每 个 数据 点 以 概率 归 为 一 特定 聚 类 〈 子 集 )。 具 体 地 ， 
今 随机 向 量 X 表示 源 (输入 ) 向量， 令 随 机 向 量 Y 表示 从 感 兴趣 的 码 本 的 最 优 重 构 〈 输 出 ) 
向 量 。 这 两 个 向 量 的 单独 实现 分 别 记 为 X Aly. 

对 聚 类 我 们 需要 一 个 畸变 度量 ， 由 d(x,y) 表 示 。 假 定 d(x,y) 满 足 两 个 希望 的 性 质 









子 任务 2 


给 定 隐藏 状态 和 权 值 向 量 w， 
产生 可 见 状态 的 概率 


可 见 神经 元 上 学 习 


了 任务 1 \ 得 到 的 数据 分 布 


图 11.12 将 感知 数据 模型 化 的 任务 分 成 2 个 子 任务 
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(1) 对 任何 x 它 是 y WAR. 
(2) 当 变 元 x，y 有 限时 ， 它 是 有 限 的 。 
当 上 述 两 个 温和 的 条 件 满足 时 ， 例 如 ， 在 第 5 章 和 第 10 章 使 用 的 欧 几 里 得 平方 畸变 度 
d(x,y) = |x—y ||? | (11. 58) 
i IX RPG Be. MEL A ae 
D= 2 2PX = = x,Y = y)d(x,y) = 2PX = 一 x) DU PY = y| X = x)d (x,y) (11.59) 


其 中 P(X=x,Y= y te X= x 和 Y 一 y 联合 事件 的 概率 。 在 式 (11. 59) 的 第 二 个 等 式 中 ， 利 用 联 
合 事件 概率 公式 : 
PX =x,Y=y) = PY =y|X=x)P(X =x) (11. 60) 
条 件 概 率 P(Y 一 y|X 一 x) 指 联想 概率 ， 即 码 字 向 量 y 联 想 源 问 量 x 的 概率 。 
传统 上 通过 对 聚 类 模型 的 自由 参数 ， 即 重建 向 量 y 和 联想 概率 PCY 一 y|X=x)， 最 小 
化 期 望 畸 变 D。 这 种 形式 的 最 小 化 产生 “ 硬 ” 育 类 解 ， 硬 是 指 源 向 量 x 被 归 入 最 近 的 码 问 
量 y。 另 一 方面 ， 在 确定 性 退火 中 ， 优 化 问题 被 改变 成 寻找 服从 特定 随机 水 平 概率 分 布 ， 
使 得 它 最 小 化 期 望 畸 变 。 作 为 随机 水 平 的 一 个 主要 度量 ,我 们 使 用 香农 焙 ， 定 义 为 〈 参 


看 10.2 49): 
H(X,Y) 一 一 2 pO = x, Y = y)logP(X = x,Y=y) (11. 61) 
期 望 望 畴 变 的 约束 优化 可 以 表示 成 拉 格 朗 日 函数 
F= D—TH (11. 62) 


的 最 小 化 ， 其 中 代为 拉 格 朗 日 乘 子 。 从 式 (11. 62) 我 们 观察 到 : 
。 MAM TE. M HERAKL. 
。 对 小 的 工 值 ， 期 望 畸 变 DRM., SR GEID RAH. 
。 xpi TH. FRERE H 增加 和 期 望 畸 变 DD 减少 之 间 的 折 中 。 
最 重要 的 是 ， 比 较 式 (11. 11) 和 式 (11. 62). 我 们 #112 约束 聚 类 和 统计 物理 学 之 间 的 对 应 
可 以 确认 表 11.2 所 列 的 约束 聚 类 优化 问题 和 统计 力学 TRAE iy 













之 间 的 对 应 。 根 据 这 种 类 比 ， 我 们 今后 称 T 为 温度 。 拉 格 朗 日 函数 下 自由 能 量 下 
为 了 进一步 了 解 拉 格 朗 日 汪 数 FF， 根 据 式 (10. 26), 期 望 畸变 D FHER (E) 
我 们 可 以 将 联合 灶 互 (X,Y) 分 成 如 下 两 项 : ERKKA H W H 
Fie eT 温度 T 





H(X,Y) = H(X) + H(Y|X) 
其 中 HOJER, HY|OKCAECRARX ABBR YAA. a HOO E 
IFRA. AL, RIIT LAARI RRP HERA HX), AR FERR 

H(Y|X) 一 一 Dy PK = 一 x) DU PY = y| X = x)logP(Y = y|K = x) (11. 63) 
这 样 突出 联想 概率 P(Y=y|X= x) 的 作用 。 因 此 ， 考 虚 到 约束 聚 类 优化 问题 和 统计 物理 学 之 间 
的 对 应 以 及 11.2 节 描 述 的 最 小 自由 能 量 原理 ， 我 们 发 现 关于 联想 概率 的 拉 格 朗 日 函数 下 的 最 
小 化 导致 联想 概率 变 为 Gibbs 分 布 


PCY =y|X=x) = -exp(— Ae) (11. 64) 
其 中 Z, 为 当前 问题 的 剖 分 函数 ， 定 义 为 : 
Z, = Pex p(— 22) (11. 65) 


当 温 度 工 接近 无 穷 时 ， 我 们 从 式 (11. 64) 发 现 联想 概率 趋向 于 均匀 分 布 。 这 就 意味 着 当 温 度 相 
当 高 时 ， 每 个 输入 向 量 是 相等 地 联想 起 所 有 诊 类 。 这 种 联想 可 以 被 视 作 “极度 模糊 ”。 在 为 一 
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个 极端 ， 当 温度 工 趋 于 零 时 ， 联 想 概 率 趋 近 于 delta 函数 。 因 此 ， 当 温度 较 低 时 ， 分 类 是 硬 
的 ， 每 个 输入 样本 以 概率 1 分 给 最 近 的 码 向 量 。 

为 了 寻找 拉 格 朗 日 函数 下 的 最 小 值 ， 我 们 将 式 (11. 64) 的 Gibbs 分 布 代 人 式 (11. 59) 和 式 
(11. 63)， 然 后 将 结果 表达 式 应 用 到 式 (11. 62) 的 拉 格 朗 日 算 子 下 的 公式 中 。 这 样 导致 的 结果 
为 (参看 习题 11. 16): 

F* = min F=— TŽ, P(X = x)logZ, (11. 66) 


PCY= y(K=) 
MATN 自由 参数 即 码 向 量 y， 最 小 化 拉 格 天 日 函数 ， REF 关于 y 的 梯度 为 零 。 因 此 ， 
得 到 条 件 


DU P(X =x, Ysy zda, y=0, 对 于 所 有 的 yE9q (11. 67) 


9 为 所 有 码 向 量 的 集合 。 利 用 式 (11. x) 规整 化 ， 可 以 重新 定义 这 个 最 小 
化 条 件 为 : 


NUP = yix = 0) Eday) 一 0， uF RAM y ey C11. 68) 


Herp RAR ARSE PCY=y|X=x) WROL 64) 89 Gibbs 分 布 定义 。 在 式 (11.68) 中 仅 为 了 完整 性 
包括 了 比例 因子 1/N， 这 里 NN 为 可 用 样本 的 数目 。 
我 们 现在 可 以 描述 聚 类 的 确定 性 退火 算法 (Rose,1998)， 


算法 包括 两 个 部 分 : 开始 在 温度 ARAN ASHER IER BRP, REE 
降低 温度 本 的 同时 跟踪 最 小 值 。 


换 句 话说 ， 确 定性 退火 运行 时 具有 特定 的 退火 进度 表 ， 温度 依 次 降低 。 对 温度 T 的 每 个 值 ， 
执行 算法 核心 的 两 步 迭 代 可 描述 如 下 : 

1. 国定 码 向 量 ， 利 用 对 于 给 定 畸 变 度量 d(x,y) 的 式 (11. 64) 的 Gibbs 分 布 计算 联想 概率 。 

2. 固定 联想 ， 使 用 式 (11. 68) 对 码 向 量 y 最 优化 畸变 度量 d(x,y)。 

这 个 两 步 迭 代 过 程 对 下 * 单调 不 升 ， 因 此 能 保证 收敛 到 一 个 最 小 点 。 当 温度 工 很 高 时 ， 拉 
格 朗 日 算 子 F* 相当 光滑 ， 而 且 在 前 面 对 畸 变 度 量 d(x,y) 的 适度 假设 下 ，F' 是 y 的 凸 函 数 。 
在 温度 较 高 时 可 以 求 得 F* 的 全 局 极 小 。 随 着 温度 降低 ， 联 想 概 率 变 “ 硬 ”， 导 致 一 个 “ 便 ” 聚 
类 解 。 

WR RE 工 按 退 火 进度 表 降 低 ， 系 统 经 历 一 系列 相 变 ， 相 变 由 自然 聚 类 分 叉 组 成 ， 在 分 又 
处 聚 类 模型 规模 〈 即 聚 类 的 数目 ) 增加 (Rose 等 ，1990;Rose,1991)。 这 种 现象 由 于 以 下 原因 
而 富有 意义 : 

1. 一 系列 相 变 提供 控制 聚 类 模型 大 小 的 一 个 有 用 工具 

2. 正如 通常 的 物理 退火 一 样 ， 相 变 是 确定 性 退火 的 关键 点 ， 此 处 需要 小 心 进行 退火 。 

3. 关键 点 是 可 计算 的 ， 因 而 提供 用 于 在 两 个 相 变 之 间 加 速算 法 的 信息 。 

4. 最 优 模型 大 小 可 以 确认 ， 通 过 厅 合 一 个 确认 过 程 检 验 在 不 同 相 位 得 到 的 一 系列 解 ， 这 
些 解 是 表示 模型 规模 〈 即 聚 类 的 数目 ) 逐渐 升 高 的 解 。 
案例 研究 : 混合 高 斯 分 布 

图 11. 13 和 图 11. 14 举例 说 明 随 温度 下 降 或 温度 倒数 B= 二 1/ 丁 的 上 升 ， 确 定性 退火 在 不 
同 相 位 时 到 类 解 的 演化 (Rose，1991)。 产 生 这 些 图 所 使 用 的 数据 集 由 6 个 高 斯 分 布 混合 而 成 ， 
它们 的 中 心 在 图 11, 13 中 都 以 “X” 标 识 。 计 算 所 得 聚 类 的 中 心 都 以 “o” 标 识 。 由 于 聚 类 解 
在 非 零 温度 不 是 “ 硬 ” 分 类 的 ， 这 个 随机 划分 在 图 中 由 属于 该 聚 类 的 等 概率 一 一 如 概率 为 1/3 
的 围 线 所 描绘 。 这 个 过 程 开 始 只 有 一 个 自然 聚 类 〈 见 图 11. 13a) 包括 所 有 训练 集 。 在 第 一 
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相 变 ， 它 分 裂 成 两 个 聚 类 CLA 11. 13b)， 然 后 经 过 一 系列 相 变 直到 它 达 到 6 个 聚 类 的 自然 
集 。 当 所 有 聚 类 都 分 裂 时 ， 下 一 个 相 变 导致 “爆炸 ”。 图 11. 14 表示 相位 图 ， 显 示 随 退火 过 程 
的 进行 平均 畸变 变量 变化 的 情况 ， 以 及 在 每 个 相 阶 段 ， 目 然 聚 类 的 数目 。 在 这 个 图 中 ， 平 均 是 
变 〈 相 对 它 的 最 小 值 规整 化 ) 是 对 温度 工 的 倒数 即 B( 相 对 于 它 的 最 小 值 规整 化 Bsi) 画 出 的 。 
两 个 坐标 轴 都 是 以 它们 相关 的 对 数 形式 标 出 的 。 


1 



































图 11. 13 “不 同 相 位 的 聚 类 。 夯 线 是 等 福 率 围 线 ， 在 b) 中 p 一 1/2， 其 余 情况 下 p 一 1/3。a) 1 
AEA (B—0); b) 2 个 聚 类 (B=0.0049); c) 3 PHA (B=0. 0056); d 44K 
类 (B=0.0100); e) 5 NRA (B=0.0156); 1) 6 个 聚 类 (B=0. 0347); g) 19 TH 
类 (B=0. 0605) 


Log (<D>/<D>min) 





Log l BIB nin ] 


图 11.14 ”在 确定 退火 中 混合 高 斯 分 布 样本 的 相位 图 。 对 每 个 相位 显示 有 效率 类 的 数 日 
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11.11 和 EM 算法 的 类 比 


为 了 说 明确 定性 退火 算法 的 另 一 个 重要 方面 ， 假 设 我 们 将 联想 概率 PCY =y|X=x) BM 
个 二 值 随机 变量 Vy WH. HERA 
O1, 如 果 源 向 量 x 被 分 配 到 向 量 y 
V o 0, 否则 (11. 69) 
从 这 个 观点 出 发 ， 我 们 认识 到 确定 性 退火 算法 的 两 步 渤 代 是 期 望 最 大 CEM 算法 的 一 种 形式 。 
为 了 领会 这 个 关联 ， 我 们 将 先 简单 地 描述 EM 算法 的 基本 理论 。 
EM 算法 
让 向 量 z 代表 缺失 的 或 者 未 观察 的 数据 。 让 rr 代表 完整 的 数据 向量 ， 它 由 一 些 可 观察 的 数 
H d 和 缺失 的 数据 向 量 z 组 成 。 因 而 考虑 两 个 数据 空间 久 和 久 ， 他 们 具有 从 及 到 多 的 多 对 一 上 映 
射 。 我 们 不 能 观察 到 完整 数据 向 量 r， 相 反 实 际 仅 能 观察 到 切中 非 完整 的 数据 4 二 dr)， 
A 六 .Cr|9) 代 表 在 给 定 参 数 向 量 6 的 情况 下 的 条 件 概 率 密度 函数 (pdf)。 那 么 随机 变量 
万 在 给 定 8 的 情况 下 的 条 件 概 率 密 度 困 数 可 以 定义 为 
po(d19) 一 | 六 Crj9)dr (11. 70) 


HERU EH d= 二 d(r) 决 定 的 久 的 子 空 间 。EM 算法 的 直接 日 的 在 于 找到 9 的 一 个 值 使 得 非 完 
整数 据 的 对 数 似 然 函 数 





L(0) = log pp(d|0) 
取得 最 大 。 但 是 ， 这 个 问题 的 解决 是 通过 间接 地 运用 完整 数据 的 对 数 似 然 函数 
L.(®) = log p.(r|®) C11. 71) 
进行 迭代 来 完成 的 ， 它 是 一 个 随机 变量 ， 因 为 缺失 数据 向 量 z 是 未 知 的 。 
更 确切 地 说 ， 让 6(n) 代 表 EM 算法 在 迭代 时 参数 向 量 6 的 值 。 在 这 次 迭代 的 玉 步 ， 我 们 
计算 期 望 
QO,6n)) = ELL, (0)] (11.72) 
其 中 期 望 是 对 6(n) 得 到 的 。 在 间 一 的 迭代 的 M 步 ， 在 参数 AD 空间 W 中 对 8 最 大 化 RG, 
6(n)) ,这 样 找 到 更 新 参数 估计 值 86(n 十 1)， 表 示 为 : 
O(n +1) = arg maxQ(6,6(7)) (11:73) 
该 算法 开始 时 参数 向 量 6 KREA), AIA BER C11. 72) MIRC. 73) RUT E a 
M 步 ， 直 到 LC(6Cn 十 1)) 和 上 (6(n)) 之 间 的 差 下 降 至 某 一 任意 小 值 ; 此 时 ， 整 个 计算 结束 。 
注意 在 EM 算法 的 一 次 迭代 后 ， 非 完整 数据 对 数 似 然 函 数 不 是 递减 的 ， 表 示 为 : 
Lln +1) SLOG), %n= 0,1,2,., 
等 号 成 立意 味 着 我 们 处 于 对 数 似 然 函 数 的 稳定 点 。 
关于 退火 的 讨论 ( 续 ) 
回 到 关于 确定 性 退火 和 EM 算法 的 类 比 中 ， 我 们 可 以 得 到 两 个 相关 程度 很 高 的 观察 : 
(i) 在 确定 性 退火 的 第 1 步 中 计算 联想 概率 ， 我 们 有 与 它 等 价 EM 算法 中 的 求 期 望 步骤 。 
Gi) 在 确定 性 退火 的 第 2 步 根据 相应 的 码 向 量 y 来 优化 畸变 变量 4dCx,y)， 我 们 有 与 它 等 
价 的 EM 算法 中 最 大 化 步骤 。 
但 在 进行 这 种 类 比 时 ， 注 意 确 定性 退火 比 最 大 似 然 估 计 是 更 一 般 的 。 这 是 因为 与 最 大 似 然 
估计 不 一 样 ， 确 定性 退火 不 对 数据 的 固有 概率 分 布 做 任何 假定 。 事 实 上 ， 联 想 概率 是 由 最 小 化 
拉 格 朗 日 函数 F 导出 的 。 
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11.12 小结 和 讨论 


在 本 章 中 我 们 讨论 利用 植 根 于 统计 力学 的 思想 作为 优化 技术 表示 和 机 器 学 习 的 数学 基础 。 

主要 讨论 了 三 种 模拟 算法 ， 

1. Metropolis 算法 ， 它 是 Markov chain Monte Carlo (MCMC) 针对 未 知 概 率 分 布 上 的 
模拟 。 

2. 模拟 退火 ， 它 是 一 个 动态 的 过 程 ， 就 以 下 而 言 ， 要 研究 系统 的 总 的 特点 在 较 高 温度 下 
观察 到 ， 同 时 系统 的 细节 特征 出 现在 较 低 温度 。 作 为 一 种 优化 算法 ， 模 拟 退 火 能 够 避免 局 部 极 
小 值 。 

3. Gibbs 抽样 ， 它 产生 一 个 带 Gibbs 分 布 作 为 平衡 分 布 的 马尔 可 夫 链 。 与 Metropolis 算法 
不 同 ， 与 Gibbs 抽样 器 相关 的 转移 概率 不 是 静态 的 。 

本 章 主 要 介绍 随机 机 器 学 习 ， 主 要 关注 两 点 : 

1. 古典 Boltzmann 机 ， 使 用 隐藏 的 和 可 见 的 随机 二 值 状态 的 神经 元 ， 它 巧妙 地 利用 Gibbs 
分 布 的 良好 性 质 ， 从 而 具有 一 些 吸 引 人 的 特征 : 

。 通过 训练 神经 元 所 显示 的 概率 分 布 和 环境 相 匹 配 。 

。 网 络 提供 一 种 推广 的 方法 ， 可 用 于 搜索 、 表 示 和 学 习 的 基本 问题 。 

。 如 果 退 火 进度 表 在 学 习 过 程 中 足够 慢 ， 则 网 络 保证 找到 状态 能 量 曲面 的 全 局 最 小 值 。 

遗憾 的 是 Boltzmann 机 需要 很 长 的 时 间 才 能 达到 平衡 分 布 ， 以 至 没有 实用 价值 。 
2. 深度 信和 度 网 络 (DBN)， 它 使 用 受 限 Boltzmann 机 (restricted Boltzmann machine, 
RBM) 作为 基本 组 成 。RBM 一 个 突出 的 特点 就 是 隐藏 神经 单元 之 间 没 有 连接 ， 否则 与 古典 
Boltzmann 机 一 样 使 用 可 见 神经 单元 和 隐藏 神经 单元 之 间 对 称 连接 。DBN 同样 建立 在 比较 旧 的 
思想 上 一 一 从 特征 中 学 习 : 
。 机 器 在 开始 处 理 阶段 ， 注 重 未 加 工 的 感官 数据 输入 的 特性 ， 主 要 抓 住 输入 数据 之 间 有 
趣 的 不 规则 性 。 

。 同 对 待 前 一 层 作 为 “新 ”的 未 加 工 的 感官 数据 输入 从 而 学 习 用 一 层 。 

。 不 断 地 这 样 学 习 ， 逐 层 之 后 直到 最 高 层 的 特性 复杂 到 能 够 很 容易 识别 原始 未 加 工 的 感 
官 数 据 中 的 感 兴趣 的 部 分 。 

通过 聪明 地 使 用 对 产生 模型 自 顶 而 下 的 学 习 和 对 推理 自 底 而 上 的 学 习 ，DBN 获得 以 一 个 
邻 人 印象 深刻 的 精度 学 习 不 带 标签 数字 图 像 的 密度 模型 的 能 力 。 

模拟 退火 的 突出 点 在 于 在 能 量 曲面 上 进行 随机 移动 ， 从 而 使 得 退火 进度 表 非 常 慢 ， 这 样 使 
得 在 许多 应 用 中 无 法 实际 使 用 。 相 反 ， 确 定性 退火 将 随机 性 耦合 到 代价 函数 中 ， 从 一 个 较 高 温 
度 开始 ， 然 后 逐渐 降低 ， 在 每 个 依次 的 温度 对 目标 函数 进行 确定 性 的 优化 。 但 是 ， 注 意 模拟 退 
火 保证 到 达 全 局 极 小 ， 而 确定 性 退火 还 没有 找到 这 种 保证 。 


注释 和 参考 文献 


1. 在 式 (11.3) 中 描述 的 术语 “典型 分 布 ”是 由 J. Willard Gibbs (1902) 在 《统计 力学 的 基本 原理 》 第 一 部 分 
33 页 上 创造 的 新 名 词 ， 他 写 到 : 
“所 表示 的 分 布 ……* 
p= e(z") 
看 来 代表 了 最 简单 可 以 想 销 的 情况 ， 因 为 当 系统 包括 分 离 能 量 的 部 分 时 ， 它 的 分 布 和 分 离 部 分 的 相位 的 分 
布 律 相 同 ， 其 中 及 和 做 为 常数 ， 且 是 为 正 。 分 布 的 这 个 性 质 极 大 地 简化 了 讨论 ， 是 和 热力 学 极端 重要 关 
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当 一 个 整体 系统 在 相位 以 刚才 描述 的 方式 分 布 ， 即 当 概 率 (P) 指标 是 能 量 O 的 线性 函数 ， 我 们 将 
说 整体 是 典型 分 布 的 ， 称 能 量 的 除数 开 为 分 布 的 模 。 


在 物理 文献 中 ， 式 (11.3) 通 常 称 为 典型 分 布 (Reif，1965) 或 Gibbs 分 布 (Landau and Lifschitz, 

1980) 。 在 神经 网 络 文献 中 称 为 Gibbs 分 布 、Boltzmann 分 布 和 Boltzmann-Gibbs 分 布 。 
. Bernoulli 实验 
考虑 一 个 包含 一 系列 独立 同 分 布 的 过 程 的 实验 一 一 一 系列 独立 的 实验 。 假 定 每 个 过 程 只 有 两 种 可 能 的 结 采 。 
从 而 我 们 可 以 说 这 次 一 系列 Bernoulli 实验 。 例 如 ， 抛 硬币 始终 ， 结 果 只 有 “ 涉 ” 和 “ 尾 ”。 
. Metropolis-Hastings 算法 
为 了 最 优化 离散 状态 空间 于 1953 年 引入 了 原始 Metropolis 算法 。 然 后 在 1970 Æ, Hastings 推广 了 此 算法 ， 
是 为 了 用 于 一 些 非 对 称 转移 概率 的 统计 模拟 。 
Ti 7 Tij 

相应 地 ， 转 移 概率 定义 为 : 

a; = min( 1,724 ) 
相应 的 马尔 可 夫 链 仍然 满足 细节 平衡 原理 。 通 过 这 种 方式 推广 得 到 的 Markov chain Monte Carlo Ji Y% MAK 
为 Metropolis-Hastings 算法 (Robert and Casella, 2004), Metropolis 算法 是 Metropolis-Hastings 算法 中 
Ti = Ty ARES TE OL 
. 在 Tu 等 (2005) 中 ,描述 了 一 种 根植 于 贝 叶 斯 理论 的 用 于 图 和 它 的 候选 部 分 的 解析 的 算法 。 这 种 全 息 图 
像 解 析 算 法 最 优化 了 后 验 分 布 ， 从 而 产生 如 同 在 语音 或 者 自然 语言 中 经 过 一 个 句子 一 样 的 输出 感 兴趣 部 分 
的 表示 。 

算法 的 计算 模块 集成 两 个 流行 的 方法 从 而 推理 : 

。 ER (CAMP) 方法， 用 来 形成 后 验 分 布 。 

。 区 分 ( 自 底 向 上 〉 方 法 ， 使 用 依 下 列 自 底 向 上 的 过 滤 (测试 ) 来 计算 区 分 概率 。 

在 Tu 等 设计 的 算法 中 ， 通 过 生成 方法 为 马尔 可 夫 链 来 提供 目标 分 布 来 定义 后 验 概率 ， 同 时 区 分 模型 用 来 
构造 用 于 导出 马尔 可 夫 链 的 后 验 分 布 。 换 名 话说 ，Markov chain Monte Carlo 方法 是 全 息 图 像 解 析 算法 的 
核心 。 

. 引信 温 度 和 模拟 退火 到 组 合 优化 问题 的 想法 是 由 Kirkpatrick, Gelatt and Vacchi (1983) 和 Cerny (1985) 
独立 提出 的 。 

在 物理 环境 中 ， 退 火 是 自然 界 的 一 个 精细 的 过 程 。Kirkpatrick 等 在 1983 的 文章 中 讨论 “熔化 ”一 个 固 
体 的 概念 ， 这 涉及 升 高 温度 到 一 个 最 大 值 使 得 固体 的 所 有 粒子 处 于 液态 时 能 够 随机 地 运动 。 接 着 降低 温度 ， 
使 得 所 有 粒子 调整 到 具有 低能 基态 的 相应 格 点 。 如 果 冷 却 太 快 ， 也 就 是 说 ,在 每 一 温度 ,固体 没有 足够 时 
间 达 到 热平衡 ， 这 样 得 到 的 晶体 会 有 许多 缺陷 ， 或 物质 将 形成 无 唱 体 序 的 玻璃 体 并 且 仅 为 局 部 最 优 结构 的 

“熔化 ”这 个 概念 对 于 思考 玻璃 体 可 能 是 正确 的 方法 ， 或 许 对 考虑 组 合 优化 问题 的 计算 也 有 和 帮助。 但 是 
当 讨 论 许多 其 他 应 用 领域 时 会 失误 (Beckerman, 1997)。 例 如 ， 在 图 像 处 理 中 ， 如 果 我 们 升 高 温度 使 得 所 
有 粒子 能 够 随机 地 调整 自己 的 位 置 ， 就 会 丢失 图 像 变 成 均匀 灰 度 。 在 相应 的 冶金 学 意义 上 ， 当 退火 铁 
或 铀 时， 我们 必须 保证 退火 温度 低 于 熔点 ; 否则 将 会 毁坏 样本 。 

有 几 个 控制 冶金 退火 重要 的 参数 : 

。 退火 温度 ， 指 示 金 属 或 合金 加 热 到 什么 温度 。 

。 退火 时 间 ， 指 定 保 持 提 高 温度 后 的 时 间 长 度 。 

。 退火 进度 表 ， 指 定 温度 下 降 的 速度 。 

在 描述 退火 进度 表 的 小 节 中 可 以 发 现 ， 这 些 参数 在 模拟 退火 里 能 找到 和 它们 相对 应 的 部 分 。 

. 对 更 复杂 的 和 理论 上 的 退火 进度 表 ， 参 看 图 书 Aarts and Korst (1989) 和 van Laarhoven and Aarts (1988), 
. Gibbs 抽样 在 统计 物理 中 称 为 Metropolis 算法 的 “ 热 浴 ”形式 。 自从 在 Geman and Geman (1984) 及 Gel- 
fand and Smith (1990) 的 文献 中 正式 出 现 以 后 ， 它 被 广泛 应 用 于 图 像 处 理 、 神经 网 络 和 统计 学 。 后 一 篇 文 
章 还 讨论 抽样 (或 Monte Carlo) 的 其 他 方法 ， 这 些 方法 基于 对 边缘 概率 估计 的 数值 计算 。 

. Boltzmann 机 的 可 见 神经 元 可 以 被 分 成 输入 和 输出 神经 元 。 在 第 二 种 结构 中 Boltzmann 机 是 在 教师 监督 下 进 
行 联想 ,输入 神经 元 从 环境 接受 信息 而 输出 神经 元 报告 计算 结果 给 最 终 用 户 。 
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9. 式 (11. 39) 的 表达 式 适 合 于 Boltzmann 机 的 “ 开 ” 和 “ 关 ” 状 态 分 别 用 十 1 和 一 1 表示 。 如 果 机 器 利用 1 和 0 
分 别 表示 “ 开 ” 和 “ 美 ” 状态， 我们 有 
E(x) 一 一 > Š wizz 


10. ERE. AXA RE Kullback-Leibler 散 度 用 作 Bekan ai 机 的 性 能 指标 (Ackley 等 ,1985; Hinton and Se- 
jnowski,1986) 。 这 个 指标 在 第 10 章 讨 论 过 ， 我 们 同样 展示 了 Kullback-Leibler 散 度 的 最 小 化 等 于 最 大 化 似 


然 估 计 。 
11. 确定 性 退火 已 成 功 应 用 到 许多 学 习 任 务 : 
© 癌 量 量化 (Rose 等 ,1992 ;Milier and Rose,1994) 
© 统计 分 类 设计 〈Miller 等 ,1996) 
12. Newcomb (1886) 的 文章 考虑 两 个 单 变 元 高 斯 分 布 的 混合 参数 估计 ， 看 起 来 这 是 文献 报告 中 最 早 的 一 个 
EM 类 型 过 程 的 参考 文献 。 
“EM 算法 ”的 名字 由 Dempster, Laird 和 Rubin 在 他 们 1977 奠基 性 的 文章 中 创造 的 。 在 那 篇 文章 中 
第 一 次 给 出 不 同 层 次 下 不 完整 数据 中 计算 最 大 似 然 和 估计 的 EM 算法 的 公式 。 
McLachlan and Krishnan (1997) 以 书 的 形式 第 一 次 统一 考虑 EM 算法 的 理论 、 方 法 和 应 用 它 的 历史 





以 及 推广 。 
习题 
马尔 可 夫 链 
11.1 从 状态 :到 状态 ) 的 2 步 转移 概率 记 为 op? 。 利 用 归纳 法 证 明 : 


pile = >) papi? 
11.2 图 P11.2 表示 随机 行走 过 程 的 状态 转移 图 ， 其 中 转移 概率 p 大 于 零 。 图 中 所 示 的 无 限 长 马尔 可 夫 链 是 
不 可 约 吗 ? 说 明 你 回答 的 理由 。 





R] P11.2 


11.3 考虑 图 P11.3 所 描绘 马尔 可 夫 链 ， 它 是 可 约 的 。 找 出 包含 在 这 个 状态 转换 图 中 的 各 个 状态 类 ，。 
11.4 计算 图 P11.4 所 示 的 马尔 可 夫 链 的 稳定 态 的 概率 。 





fe [Uo 
Labo 





ei 
4 





图 P11.3 图 Pll.4 


11.5 考虑 图 P11.5 所 描绘 马尔 可 夫 链 ， 使 用 这 个 例子 证 明 Chapman-Kolmongorov 的 正确 性 。 
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时 间 0 有 时间 #1 Ht Ha 





模拟 技术 
11.6 Metropolis 算法 和 Gibbs 抽样 器 代表 两 类 不 同 的 模拟 大 规模 问题 的 技术 。 讨 论 它 们 之 间 的 基本 相似 点 和 
11.7 本 题 中 考虑 用 模拟 退火 求解 旅行 商 问 题 (traveling salesman problem, TSP). 条 件 如 下 : 
。 N 个 城市 。 
© 每 两 个 城市 间 中 离 为 4。 
。 旅行 路 线 为 一 个 闭合 的 路 答 ， 只 访问 每 个 城市 一 次 。 
日 标 是 寻找 具有 最 小 总 长 度 工 的 旅行 路 线 ( 即 排列 城市 访问 的 顺序 )。 在 这 个 习题 中 ， 不 同 的 可 能 旅行 
路 线 称 为 爸 形 ， 而 需 最 小 化 的 代价 函数 为 旅行 路 线 的 总 长 度 。 
Ca) 设计 出 一 种 产生 合法 构 形 的 先 代 方法 。 
(b) 旅行 路 线 总 长 度 定义 为 











Lp =F > dporan 
i=l 
其 中 表示 一 个 置换 及 PCN 十 1) 二 P01)。 因 此 ， 谢 分 函数 为 
Z — > eet 


其 中 工 为 控制 参数 。 建 立 用 于 TSP 的 模拟 退火 算法 。 
Boltzmann 机 
11.8 考虑 一 个 在 温度 工 运行 的 随机 二 值 神经 元 ) 。 它 从 状态 r 翻转 到 状态 一 zx; 的 概率 为 
l 
1+ exp(— AE, / T) 
其 中 AE, 为 翻转 所 导致 的 能 量 收 变 。Boltzmann $1) BAER EA 


PCy a x) — 


其 中 wi 为 从 神经 元 i 到 神经 元 j OFA, AL wy, = wy 和 wj =0. 
(a) 证 明 
AE; =— 22;0; 
其 中 vw 为 神经 元 7 的 诱导 局 部 域 。 
(b) 因此 ， 证 明神 经 元 j 从 初 态 x; = —1 翻转 到 zi 一 十 1 的 概率 为 1/(1 二 exp( 一 2v;/T))。 
Cc) 证 明 当 神经 元 j 从 初 态 为 十 1 翻转 到 状态 一 1 时 (b) 中 的 公式 仍然 正确 。 
11.9 ”推导 式 (11.49) 中 对 数 似 然 函 数 Llw) 关 于 Boltzmann 机 突 触 权 值 wj 的 导数 公式 。 
11.10 Gibbs 分 布 可 以 利用 自 完备 的 数学 方法 推导 出 ， 而 不 依赖 于 统计 物理 的 概念 。 特 别 地 ， 一 个 两 步 马 尔 
可 夫 链 模型 的 随机 机 器 可 用 来 导出 形成 Boltzmann 机 特殊 性 质 的 假设 《Mazaika,1987) 。 这 一 点 也 不 令 
人 惊奇 ， 因 为 作为 Boltzmann 机 运行 的 模拟 退火 本 身 具 有 马尔 可 夫 性 质 (van Laarhoven and Aarts, 
1988), 
考虑 在 一 个 随机 机 器 中 神经 元 的 状态 转移 模型 由 两 个 随机 过 程 组 成 : 
。 第 一 个 过 程 决 定 尝试 哪个 状态 转移 。 
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11. 11 


11.12 


。 第 二 个 过 程 决 定 这 次 转移 是 否 成 功 。 
Ca) 表示 状态 转移 概率 太 为 两 个 因子 的 乘积 ， 即 
Pa = Tes 当 7 了 7 天: 


证 明 
De eer Desa 
Cb) 假设 尝试 率 和 矩阵 是 对 称 的 ， 
并 且 假 设 尝试 成 功 的 概率 满足 互补 条 件 转移 概率 的 性 质 ， 
Gi = 


使 用 这 两 个 假设 证 明 
Dt Cy n + qi Tri = = 0 
Cc) 假定 zi 天 0， 利用 问题 (a) 中 的 结果 证 明 : 
ER 
15 T+ Gala) 
(d 最 后 ， 进 行 变 量变 换 : 
E; =— T log a, + T” 
其 中 人 和 了 为 任意 常数 。 由 此 推导 ， 其 中 AEE; E: 


《| ) n= exp Z) 


(iÏ) Z= S exp(— =} 
ili) 0 
MW) Qi Ee AE/T) 
Ce) 你 能 从 这 些 结果 中 得 出 什么 结论 ? 
在 11.7 节 我 们 利用 最 大 似 然 函 数 作为 推导 式 (11. 53) 所 描述 的 Boltzmann 学 习 规 则 的 准则 。 在 这 个 习 
题 中 我 们 利用 其 他 准则 重新 考虑 这 个 学 习 规 则 。 由 第 10 章 的 讨论 ， 两 个 概率 pe Al pa AY Kullback- 
Leibler 散 度 定义 为 : 
Dp lo = Sie log( 2) 
其 中 对 所 有 可 能 的 状态 a RA. BER p 表示 网 络 在 钳制 GEM) 状态 时 可 见 神 经 元 处 于 状态 a 的 概 
率 ， 概 率 p- 表示 网 络 在 自由 运行 〈 负 向 ) 状态 时 可 见 神经 元 处 于 状态 a 的 概率 。 利 用 Dr | ,- HEB 
定义 重新 推导 式 (11.53) 中 的 Boltzmann 学 习 规 则 。 
考虑 Boltzmann 机 的 可 见 神经 元 分 成 输入 神经 元 和 输出 神经 元 。 这 些 神经 元 的 状态 分 别 表示 为 a 和 7 
隐藏 神经 元 状态 记 为 8B。 这 个 机 器 的 Kullback-Leibler 散 度 定义 为 : 
Dit ye = Sip: D1 Phielog( 22) 

其 中 p+ 为 输入 神经 元 在 状态 a WHER, pt .为 给 定 输入 状态 a 输出 神经 元 被 钳制 在 状态 y 的 条 件 概 
率 ，z .为 仅 输入 神经 被 钳制 在 状态 时 处 于 热平衡 中 的 输出 神经 元 状态 为 7 的 条 件 概 率 。 和 前 面 一 
Re, WEARS LOWRIE CHRD 和 负 向 (自由 运行 ) 条 件 。 
Ca) 对 输入 、 隐 藏 和 输出 神经 元 的 Boltzmann 机 导出 公式 Dpt lo 。 
(b) 对 于 这 种 网 络 配置 经 过 重新 解释 相关 性 加 | ,和  。， 证 明 调 整 突 触 权 值 wi 的 Boltzmann 学 习 规 

则 仍 可 以 被 表示 成 和 式 (11. 53) 同 样 的 形式 。 





深度 信和 度 网 络 

11.13 在 学 习 了 深度 信和 度 网 络 和 logistic 信和 度 网 络 ， 请 问 它们 之 间 的 主要 区 别 在 哪 ? 并 解释 你 的 管 案 。 
11.14 请 说 明 如 图 11.9 所 示 的 无 限 的 logistic 信和 度 网 络 和 图 11. 8 所 示 的 单个 RBM 是 等 价 的 。 

确定 性 退火 


11.15 


E 11.10 节 中 我 们 利用 信息 论 方法 讨论 确定 性 退火 的 思想 。 确 定性 退火 的 思想 也 可 以 基于 第 10 章 讨 
论 的 最 大 信 原 理 用 原理 化 的 方式 产生 。 说 明 第 二 种 方法 的 茜 本 原理 (Rose，1998)。 
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Ca) 利用 式 (11. 59), 式 (11. 64) 和 式 (11. 63)， 推 性 式 (11. 66) 所 给 出 的 拉 格 朗 日 函数 F* 的 结果 ， 该 
结果 是 用 联想 概率 的 Gibbs 分 布 得 到 的 。 
(b) 利用 本 题 中 (a) 的 结果 ， 导 出 式 (11. 68) 给 出 的 F* 关 于 码 向 量 y 取 最 小 值 的 条 件 。 
(c) 应 用 式 (11. 68) 的 最 小 化 条 件 到 式 (11. 58) 的 平方 畸变 度量 ,评论 你 的 结果 。 
考虑 数据 集 为 混合 高 斯 分 布 ， 在 这 种 情况 下 ， 怎 样 才 能 使 得 利用 确定 性 退火 比 利 用 最 大 似 然 估计 有 优 
越 性 ? 
在 本 题 中 我 们 探讨 基于 神经 网 络 的 模型 分 类 中 确定 性 退火 的 应 用 (Miller 等 ，1996)。 输 出 层 的 神经 元 
了 的 输出 记 为 F; (x)， 其 中 x 为 输入 向 量 。 分 类 决策 是 基于 最 大 判别 式 F(x). 
(a) 对 于 概率 目标 函数 ， 考虑 
F= 1 5 SPHERE CO 


N .Ges i 
其 中 9 为 带 标号 向 量 的 训练 集 ，x RRMA, CHEN RAMA, PRER) AMA Hx 和 类 
KRR 的 联想 概率 。 利 用 第 10 NRA, Ba PCKeR,) Mh Gibbs 分 布 。 
(b) 令 《P,〉 表 示 错 分 类 代价 的 均值 。 写 出 在 联想 概率 POKER) I — RF Be tk 
《P。) 的 拉 格 天 日 方程 。 
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动态 规划 


本 章 组 织 

本 章 有 三 个 目的 : Cl) 讨论 动态 规划 作为 多 级 动作 规划 的 数学 基础 的 发 展 ， 多 级 动作 规 
划 是 通过 一 个 智能 体 (agent) 在 随机 环境 中 运行 来 实现 的 ; C1) 给 出 作为 动态 规划 还 近 形 式 
的 强化 学 习 的 直接 推导 ;〈 计 》 给 出 处 理 维 数 灾 逼近 动态 规划 的 非 直接 方法 。 
本 章 组 织 如 下 : 
12.1 节 是 引言 章节 ， 通 过 12.2 节 中 讨论 的 马尔 可 夫 决 策 过 程 ， 激 发 了 对 动态 规划 的 研究 。 
12.3 节 到 12.5 节 讨论 动态 规划 的 Bellman 理论 以 及 两 个 相关 的 方法 : KEAR MEAR., 
12.6 节 讨 论 动态 规划 基于 直接 学 习 融 近 后 的 理论 基础 ， 因 而 导致 了 时 序 差 分 学 习 和 Q -学 
它们 将 分 别 在 12.7 和 12.8 节 中 讨论 。 
12.9 节 讲 述 处 理 维 数 灾 问题 的 动态 规划 的 非 直接 逼近 的 理论 基础 ， 因 而 导致 最 小 二 乘 策 
略 评估 和 逼近 值 迭 代 的 讨论 ， 这 将 在 12. 10 节 和 12.11 市 中 分 六 讨论 。 

最 后 是 12. 12 节 的 小 结 和 讨论 。 


12.1 引言 


在 本 节 中 ， 我 们 认识 到 学 习 的 两 种 主要 范例 ， 有 教师 学 习 和 无 教师 学 习 。 无 教师 学 习 的 区 
例 又 可 以 细 分 为 自 组 织 (无 监督 ) 学 习 和 和 强化 (reinforcement) 学 习 。 第 1 章 到 第 6 Brie T 
有 教师 学 习 或 监督 学 习 的 不 同形 式 , 第 9 章 到 第 11 章 讨 论 了 非 监督 学 习 的 不 同形 式 。 第 7 草 
中 讨论 了 半 监 督学 习 。 本 章 将 讨论 强化 学 习 。 

监督 学 习 是 在 “教师 ”教导 下 进行 的 “ 认 知 ”学 习 问 题 : 亡 依 赖 于 一 组 丛 当 输入 -输出 村 
本 的 可 用 性 ， 这 些 样 本 能 够 反映 运行 环境 。 与 此 相反 ， 强 化 学 习 是 一 种 “行为 ”学 习 问 题 ， 通 
过 学 习 系 统 和 环境 的 交互 作用 完成 任务 ， 尽 管 存在 不 确定 性 ， 但 学 习 系 统 仍然 希望 在 环境 中 达 
到 特定 目标 (Barto 等 ，1983; Sutton and Barto，1998)。 无 教师 情况 下 进行 的 交互 使 得 强化 
学 习 特 别 适合 代价 很 高 或 很 难 (如 果 不 是 不 可 能 ) 找到 一 组 满意 的 输入 -输出 样本 的 动态 情况 。 

有 两 种 途径 研究 强化 学 习 ， 概 述 如 下 : 

1. 传统 方法 。 通 过 惩罚 和 奖励 的 过 程 进行 学 习 以 期 达到 高 度 熟 练 行为 的 目标 。 

2, 现代 方法 。 它 基于 称 为 动态 规划 的 一 种 数学 方法 ， 通 过 考虑 将 来 可 能 的 但 实际 并 未 发 
生 的 阶段 而 决定 一 系列 的 行动 ; 这 里 强调 的 是 规划 (planning). 

我 们 讨论 的 重点 是 现代 强化 学 习 。 

动态 规划 (dynamic programming) 技 术 处 理 的 是 这 样 一 种 情况 : 分 阶段 做 决策 ， 在 做 下 

一 个 决策 之 前 在 某 种 程度 上 能 够 预测 每 个 决策 的 结果 。 这 种 情况 的 一 个 关键 方面 是 不 能 孤立 地 
做 出 决策 。 相 反 ， 现 在 对 低 代价 的 希望 必须 被 将 来 高 代价 的 失望 所 抵消 。 这 是 一 个 信任 赋值 
(credit assignment) 问题 ， 因 为 信任 或 责任 必须 赋值 给 一 组 相互 作用 的 决策 中 的 每 一 个 决策 。 
为 了 最 优 的 规划 ， 需 要 在 眼前 代价 和 将 来 代价 中 取得 有 效 的 折 中 。 这 种 折 中 确实 被 动态 规划 的 
形式 抓 住 。 特 别 地 ， 动 态 规划 解决 下 面 的 一 个 基本 问题 : 


当 可 能 需要 牺牲 短期 性 能 的 情况 下 ， 系 统 主体 或 决策 者 怎样 在 随机 环境 中 学 习 而 提高 其 长 
期 性 能 的 ? 





习 
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Bellman 动态 规划 为 这 一 基础 问题 提供 了 一 个 好 的 原则 方式 的 最 优 解 。 | 

在 数学 模型 建立 时 的 挑战 在 于 在 两 个 实体 之 间 达 到 正确 的 平衡 ， 一 个 是 实际 的 ， 另 一 个 是 
理论 上 的 。 这 两 个 实体 分 别 是 : 

。 给 定 问题 的 实际 描述 

。 作用 于 这 一 问题 的 分 析 和 计算 方法 的 能 力 

在 动态 规划 中 ， 特 别 关 心 的 问题 是 在 随机 环境 中 运行 的 学 习 主 体 的 决策 。 为 了 说 明 这 一 
问题 ， 我 们 围绕 马尔 可 夫 决 策 过 程 来 建立 模型 。 给 定 动态 系统 的 初始 状态 ， 马 尔 可 夫 决 策 过 
程 为 选择 决策 序列 提供 数学 基础 ， 这 将 最 大 化 从 N -阶段 决策 过 程 的 返回 值 。 我 们 刚刚 讲述 
的 是 Bellman 动态 规划 的 本 质 。 因 而 从 马尔 可 夫 决 策 过 程 的 讨论 来 开始 动态 规划 的 学 习 是 合 
适 的 。 
12.2 马尔 可 夫 决 策 过 程 


考虑 一 个 学 习 系 统 或 智能 体 (agent) MARA (decision maker) 以 图 12. 1 的 方式 和 环境 

相互 作用 。 系 统 依照 一 个 有 限 的 离散 时 间 马 尔 可 夫 决 策 过 程 运 行 ， 这 状态 
个 马尔 可 夫 决 策 过 程 有 以 下 特性 ， 

。 环境 依 概率 以 一 组 有 限 的 离散 状态 来 演化 。 但 是 注意 状态 并 不 包 

含 过 去 的 统计 特性 ， 尽 管 过 去 的 统计 特性 对 学 习 系 统 是 有 用 的 。 





。 对 于 每 一 个 环境 状态 ， 学 习 系 统 可 以 采取 一 组 有 限 的 可 能 行动 。 ， 行为 


。 观察 状态 、 采 取 行 动 和 引发 代价 都 是 在 离散 的 时 间 里 发 生 的 。 交互 的 框图 

在 当前 讨论 的 背景 下 ， 我们 引入 如 下 的 定义 : 

环境 的 状态 定义 为 学 习 系 统 从 它 和 环境 交互 中 获得 的 过 去 全 部 经 历 的 总 和 ， 它 包含 学 习 系 
统 预 测 环 境 未 来 行为 所 必需 的 信息 。 


设 表 示 在 时 间 步 n 的 状态 的 随机 变量 为 X,， 在 时 间 步 n 的 实际 状态 为 i,。 有 限 个 状态 的 
集合 用 X 表示。 动态 规划 令 人 惊奇 的 一 个 特点 是 它 的 适用 性 很 少 依赖 状态 的 性 质 。 因 此 可 以 
不 对 状态 空间 结构 做 任何 假设 而 进行 。 还 要 注意 的 是 动态 规划 算法 的 复杂 度 是 对 状态 空间 的 维 
数 二 次 的 并 对 行为 空间 的 维 数 是 线性 的 。 

”例如 ， 对 于 状态 i, 一 组 可 采取 的 行为 〈 即 学 习 系 统 作用 于 环境 的 输入 ) 设 为 对 一 {ax)， 
这 里 的 学 习 系 统 采取 的 行动 wx 的 第 二 个 下 标 & 仅仅 说 明 当 环境 在 状态 上 时 ， 可 以 有 不 止 一 个 可 
能 的 行动 。 例 如 ， 采 取 行动 a 将 环境 状态 从 i 变化 到 7 状态 本 质 上 为 概率 性 的 。 然 而 ， 最 重要 
的 是 ， 从 状态 i 到 状态 j 的 转移 概率 完全 依赖 于 当前 状态 i 和 相应 的 行动 ax 。 这 就 是 第 11 章 
中 讨论 的 马尔 可 夫 性 质 。 这 个 性 质 是 很 关键 的 ， 因 为 它 意味 着 环境 的 当前 状态 为 学 习 系 统 提供 
必需 的 信息 以 决定 采取 什么 行动 。 

用 一 个 随机 变量 A 表示 学 习 系 统 在 时 间 步 时 采取 的 行动 。 用 ps (a) 表 示 在 时 间 步 n 时 
由 于 采取 行动 a 而 导致 从 i 状态 转移 到 j 状态 的 转移 概率 ， 其 中 A, 二 a。 由 状态 动力 学 的 马尔 
A RRA 


pa (a) = P(X = j |X, = i,A, =a) (12.1) 
由 概率 论 ， 转 移 概 率 p; (a) 必 须 满足 以 下 两 个 条 件 : 

1. py (a) 之 0 对 于 所 有 i 和 (12. 2) 

A >) Pi (a) = 1 MEAG (12. 3) 


其 中 i 和 j 属于 状态 空间 。 
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对 于 给 定数 目的 状态 和 转移 概率 ， 学 习 系 统 随时 间 采 取 行 动产 生 的 环境 状态 序列 形成 一 个 
马尔 可 夫 链 。 我 们 在 第 11 章 已 经 讨论 过 马尔 可 夫 链 。 

当 从 一 个 状态 转移 到 另 一 个 状态 时 ， 学 习 系 统 招致 一 个 代价 。 因 此 在 行动 a; 作 用 下 产生 的 
从 状态 :到 状态 7 的 第 nn 步 转移 ， 学 习 系 统 招致 的 代价 表示 为 Yg Goaa,j), HBB ele. es, ) 
是 一 个 规定 的 图 数 ，y 是 折扣 因子 Cdiscount factor)，0 志 yy 过 1。 通 过 调节 yY， 可 以 控制 学 习 系 统 对 它 
自己 行动 的 短期 和 长 期 结果 考虑 的 程度 。 在 极端 情况 下 ， 当 y=0 时 系统 是 短视 的 (myopic), ER 
考虑 它 的 行动 的 当前 结果 。 以 后 将 忽略 这 种 极端 值 ， 也 就 是 限于 讨论 0<y<1。 当 > 接近 1 时 ， 未 
来 的 代价 在 采取 最 优 行动 时 变 得 更 为 重要 。 

我 们 的 兴趣 在 于 形成 一 种 策略 〈policy)， 这 里 策略 指 的 是 状态 到 行动 的 映射 。 换 名 话说 ; 


给 出 环境 当前 状态 的 知识 ， 一 个 策略 是 学 习 系 统 决定 做 什么 所 使 用 的 一 个 规则 。 
策略 表示 为 
T = {pop pH2 +r") (12. 4) 
其 中 j 指 的 是 在 时 间 步 n=0,1,2,°, RA X, =i 到 行动 A, Sa 的 映射 。 这 个 映射 满足 
MOEL 对 于 所 有 状态 写 E 8% 

ZEA 表示 在 状态 时 学 习 系 统 能 够 采取 的 行动 集合 。 这 样 的 策略 是 允许 的 。 

策略 可 以 是 不 稳定 的 或 稳定 的 。 不 稳定 的 (nonstationary) 策略 是 随时 间 变 化 的 ， 正 如 式 
(12.4) 所 示 。 但 当 策 略 不 随时 间 变 化 时 ， 即 

x = {nm} 
就 说 策略 是 稳定 的 〈stationary) 。 换 句 话 说， 稳定 的 策略 每 次 遇 到 一 个 特定 的 状态 时 采取 相同 
的 行动 。 对 于 稳定 的 策略 ， 固 有 的 马尔 可 夫 链 既 可 以 是 不 平稳 的 也 可 以 是 平稳 的 。 在 不 平稳 的 
马尔 可 夫 链 上 也 可 使 用 稳定 的 策略 ， 但 这 是 不 太 明 智 的 。 如 果 使 用 稳定 的 策略 w， 那 么 状态 序 
列 (X,.n=0,1,2.°°}) 形成 一 马尔 可 夫 链 ， 其 转移 概率 为 p; eG) ,pj( 引 表示 一 个 行动 。 由 于 
这 个 原因 该 过 程 称 为 马尔 可 去 决策 过 程 。 
基本 问题 

动态 规划 问题 分 为 有 限 范 围 和 无 限 范 围 两 种 。 有 限 范围 (finite-horizon) 问题 中 在 有 限 的 
阶段 内 对 代价 累积 。 无 限 范围 Cinfinite-horizon) 问题 中 在 无 限 的 阶段 内 对 代价 累积 。 无 限 范 
围 问 题 为 有 限 范 围 但 数目 非常 大 的 问题 提供 一 个 合理 的 逼近 。 因 为 折扣 保证 对 于 任何 策略 所 有 
状态 的 代价 都 是 有 限 的 ， 这 样 无 限 范围 问题 有 者 特殊 的 应 用 。 

A g(X, ,pal(X,) Xi) 记 在 策略 u XO BITDI FARS X, RB Xi 的 结果 所 发 生 的 
观测 代价 。 在 无 限 范围 问题 中 ， 从 初始 状态 X =i 开始 并 使 用 策略 += 二 fy;)， 总 的 期 望 代价 定 
义 为 

FO = EL D r'e Ks pC Xs), Xm) |Xo = i | (12. 5) 


其 中 期 望 值 是 对 马尔 可 夫 链 (XiXe 取 值 ，y 是 折扣 因子 。 函 数 J CUKRE x 从 状态 
i 开始 的 cost-to-go 函数 。 它 的 最 优 值 记 为 J" (i)， 定 义 为 : 
J’ @) = minJ*(@) (12. 6) 

VAM4 aw JOERA (Creedy) 时 ,策略 r ERR. MER “RAE” RAK 
这 样 的 情形 : 当 智 能 体 寻 找 最 小 化 下 一 个 瞬时 代价 时 不 注意 这 样 的 行动 的 话 可 能 废除 将 来 更 好 
的 途径 。 

当 策略 x 稳定 时 ， 即 xz 一 {w Ap …)}， 我 们 用 符号 ORBIT (i)， 并 当下 列 条 件 成 立时 
Pi u 是 最 佳 的 : 
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JD =J D ”对 于 所 有 初始 状态 ?i (12.7) 
动态 规划 的 基本 问题 可 以 总 结 如 下 : 


给 定 描述 学 习 系 统 和 环境 相互 作用 的 稳定 马尔 可 夫 决 策 过 程 ， 找 到 一 个 稳定 的 策略 x 二 
(popes pes } 使 对 所 有 的 初始 状态 1 有 最 小 的 cost-to-go wm He J" Ci). | 


注意 ， 在 学 习 过 程 中 ， 学 习 系 统 的 行为 可 以 随时 间 改 变 。 但 是 学 习 系 统 寻 找 的 最 优生 略 是 
稳定 的 。 


12.3 Bellman 最 优 准则 


动态 规划 技术 依赖 归功 于 Bellman (1957) 的 通称 为 最 优 原则 (principle of optimality) 的 
非常 简单 的 思想 。 这 个 原则 可 简单 陈述 为 (Bellman and Dreyfus, 1962); 


一 个 最 优 策略 有 这 样 的 性 质 ， 无 论 初始 状态 和 初始 决策 是 什么 ， 对 于 第 一 个 决策 所 导致 的 
状态 ， 剩 余 决策 必须 成 为 最 优 策 略 。 


正如 这 里 使 用 的 那样 ， 决 策 (decision〉 是 在 特定 时 间 的 一 种 控制 选择 ,策略 〈policy) ze 


整个 控制 序列 或 控制 函数 。 
为 用 数学 公式 表示 最 优 原 则 ， 考 虑 一 个 有 限 范围 问题 ， 它 的 cost-to-go 函数 定义 为 
Jo (Xo) = E| gx (Xx) + Daa (Xn ope (Xn) Ket) | (12.8) 


其 中 到 是 规划 范围 《〈planning horizon) 《〈 即 阶段 数目 )，gr (CXx) 是 最 终 代 价 。 给 定 Xo» 
式 (12. 8) 中 的 期 望 值 是 对 剩余 状态 Xie Ke RH. 现在 可 以 正式 陈述 最 优 原 则 如 下 
(Bertsekas, 2005, 2007): 


Ar oe = (yd spr "si-1) 作 为 基本 有 限 范围 问题 的 最 优 策略 。 假 设 使 用 最 优 策略 aH, 
给 定 的 状态 和 发 生 的 概率 为 正 。 考 虑 当 环 境 在 时 刻 寻 时 状态 为 X。 GTA, RERNA Z 
最 小 化 对 应 的 cost-to-go AA 


J, (X) = E| gk (Xn) + > Kia Ra (12. 9) 
其 中 1 一 0,1,，…, 开 一 1。 这 时 截断 策略 (ur synti o yk-) 对 于 子 问 题 是 最 优 的 。 


通过 下 面 的 讨论 ， 我 们 可 以 直观 地 说 明 最 优 原则 的 合理 性 : 如 果 截 断 策略 pw tent ot 
uk} 不 是 如 陈述 的 那样 为 最 优 ， 那么 一 旦 在 2 时刻 到 达 X, 状态 ， 通 过 简单 转换 到 对 于 子 回 
题 最 优 的 策略 ， 我 们 可 以 减少 cost-to-go 函数 J. CX)» 

最 优 原则 基于 分 而 治之 〈divide and conquer) 的 工程 概念 。 基 本 上 ， 一 个 复杂 的 多 阶段 规 
划 或 控制 问题 的 最 优 策略 ， 可 通过 以 下 处 理 构 阁 : 

1. 构造 一 个 仅 包含 系统 最 后 一 个 阶段 的 “尾部 子 问题 ”(tail subproblem) 的 最 优 策略 。 

2. 扩展 最 优 策略 至 包含 系统 最 后 两 个 阶段 的 “尾部 子 问题 ”。 

3. 以 这 种 方式 继续 这 种 过 程 ， 直 到 处 理 完 整个 问题 。 
动态 规划 算法 

在 前 面 描述 过 程 的 基础 上 ， 我 们 可 以 提出 动态 规划 算法 ， 它 从 时 期 N 一 1 到 时 期 0 反 回 处 
理 。 邻 x 一 {uo ym，… ,1g-1) 表 示人 允许 策略 。 对 每 一 个 n=O,1l,,K—1, 令 = tpn Hati"? 
wx-1)， 令 J*(X,) 表 示 从 时 间 n 的 状态 X, 开始 到 时 间 K A Kna) 阶段 问题 的 最 优 代 
价 ; EP 
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POOS E r a Aa Ao 
它 表 示 式 (12. 9) 的 最 优 形式 。 考 虑 到 w= Gn n VARDERA. 10) 的 右边 和 ， 我 们 可 以 
写成 : 


FeO) mg Eg, | gn (Xn pte (Xn) Xen) + aXe + > gi Xe opera) Xai) | 
Cin 9 TC owe 


= fin xE, En (X, + fin CX,) ep, Gang, + min a Erl gx (Xx) sia De CX, 9 [Li (Xa) sX etl ) | | 


= min KE Lg CX open (Ka) Xan) F Jia Km) J (211) 
在 最 后 一 行 ， 使 用 了 式 (12. 10) 的 定义 ， 以 n 十 1 代替 n。 相 应 地 ， 从 式 (12. 11) 可 以 导出 : 
Ja (Xa) = min E Le (Xn sUn (Xa) »>Xnti) ed at ) | (12. 12) 


现在 可 以 正式 陈述 动态 规划 算法 如 下 CBertsekas, 2005, 2007): 


对 每 一 个 初始 状态 Xo， 基 本 有 限 范 围 问 题 的 最 优 代价 I (Xo) 等 于 JoCXo)， 其 中 函数 Jo 
从 下 面 算法 的 最 后 一 步 得 到 : 
JAX) 一 min xE, L8 (X, vln Xn) s Xai) + a (Xai) | (12. 13) 
按时 间 反 向 运行 ， 且 
| JK(XK) = gr (Xk) (12. 14) 
AI Bue 使 得 式 (12. 1D HALATE n RX, ARD, MARB n = {po spi sR} 
是 最 优 的 。 


Bellman 最 优 性 方程 

以 其 基本 形式 ， 动 态 规划 算法 处 理 有 限 范围 问题 。 我 们 感 兴趣 的 是 推广 这 个 算法 的 用 途 ， 
即 处 理 在 稳定 策略 x 二 {yw,4，…}) 情 况 下 ， 式 (12. 5) 的 cost-to-go 函数 所 描述 的 无 限 范围 折扣 
问题 。 为 了 达到 这 一 点 ， 我 们 做 下 面 两 件 事 : 

l 反 转 算法 的 时 间 索 引 。 

2. 定义 代价 gn (Xnsul Xa) Xe AF: 


gn (Xn sp X,) Xma) = Wg CX ul Kn) Xt) (12. 15) 
现在 可 以 重新 定义 动态 规划 算法 如 下 : 
J et (Xo) = min Ele (Xo op Xo) »X,) + y] CX) | (12. 16) 


它 从 初始 条 件 
Jo(X) = 二 0， 对 于 所 有 XX 
开始 ， 状 态 X 是 初始 状态 ，X, 是 策略 w 的 行动 导致 的 新 状态 ，7Y 是 折扣 因子 。 
AJ (i) 表 示 对 初始 状态 X =i 的 最 优 无 限 范围 的 代价 。 我 们 可 以 把 J" (i) 看 作 相 应 的 KK 
阶段 最 优 代 价 J x (2) 当下 趋 于 无 穷 大 时 的 极限 ， 即 
J” © = limJx@), 对 于 所 有 1 (12. 17) 
这 个 关系 联系 着 有 限 范 围 和 无 限 范围 之 间 的 折扣 问题 。 在 式 (12.16) 中 ， 症 ?TI 一 长 ， 入 o 一 2 
并 应 用 式 (12.17) ， 我 们 得 到 
re@o= min ẸLg Gyl), XD) +y * (CX) (12. 18) 
为 了 重 写 最 优 无 限 范围 代价 OKAR, 按 下 面 两 个 阶段 进行 处 理 。 
1. 计算 代价 gG uli, Xe X 的 期 望 值 : 
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ELg(i)(i),X,] 一 g (in(i) ,I) (12. 19) 


其 中 NN 是 环境 状态 的 数目 ，pi 是 初始 状态 六。 二 i HERE X=) 的 转移 概率 。 式 (12. 19) 定 义 
的 量 是 在 状态 XX。 二 i 使 用 策略 py 建议 的 行动 引起 的 瞬时 期 望 代 价 。 利 用 c(i,p(i)) 表 示 这 个 代 
价 ， 可 以 写 为 : 


cli,u(i)) = Dy bag sp) j) (12. 20) 
2. 计算 J XON Xi 的 期 望 值 。 注 意 ， 如 果 知 道 有 限 状态 系统 的 每 一 个 状态 Xi 的 代价 

J* (X), il i IDR I (Xi) 的 期 望 值 如 下 : 
EL[J* (X,)] = Dp JD (12. 21) 


这 样 ， 将 式 (12. 19) 至 式 (12.21) 代 人 式 (12. 18), 得 到 期 望 的 结果 
J i) = nin Gg nT | 当 i= 2 (12. 22) 


式 (12. 22) 叫 做 Bellman 最 优 性 方程 。 它 不 应 该 被 看 作 算 法 。 相 反 ， 它 表示 N 个 方程 组 ， 每 个 
方程 对 应 一 个 状态 。 这 个 方程 组 的 解 定义 环境 N 个 状态 的 最 优 cost-to-go PAR . 

有 两 种 计算 最 优 策略 基本 方法 。 它 们 称 为 策略 迭代 和 值 迭 代 。 这 两 种 方法 分 别 在 12.4 证 
和 12.5 Witte. 


12.4 策略 迭代 


为 了 描述 策略 迭代 算法 ， 我 们 首先 介绍 Watkins (1989) 提出 的 Q -因子 的 概念 。 考 虑 一 
个 现 有 的 策略 w， 它 的 所 有 状态 ; 的 cost-to-go 函数 J*( 引 为 已 知 。 对 每 一 个 状态 EX 和 行动 
aCA, Q-ATEMABN ROI ERR e 的 所 有 后 继 状 态 的 折扣 代价 之 和 和， 表示 为 


Q Cisa) = clira) YX, ps OMG | (12. 23) 


EHEJ a= uli), He Q-A fF Q*G,a) Lt cost-to- 
go AA JS OOBE HEREZ. wlan, 行动 可 以 只 依 
靠 Q -因子 来 排序 ， 而 依靠 cost-to-go 函数 排序 时 还 
需要 状态 转移 概率 和 代价 的 知识 。 还 要 注意 的 是 在 
式 (12. 22) BAY J * DÆ HA min Q*(i,a) 获 得 的 。 
通过 设想 由 初始 状态 1,2,…,N 和 所 有 状态 - 行 
动 对 G.) 组 成 其 状态 的 新 系统 ， 如 图 12.2 所 描 wise 两 个 可 能 的 转移 ， 从 状态 GO 到 





绘 ， 我 们 可 以 深入 了 人 解 Q -因子 的 含义 。 有 两 种 可 能 状态 7 的 转移 为 概率 性 的 ， 但 从 状态 
Lo i 到 状态 (i，a) 的 转移 为 确定 性 的 

1. 系统 在 状态 (i,a)， 在 这 种 状况 下 ， 不 采取 行动 。 以 概率 加 (a) 自动 转变 为 状态 7; 同 
时 招致 代价 gl(i,a,7)。 


2. 系统 在 状态 i， 在 这 种 状况 下 ， 采 取 行动 <Es 后 。 下 一 个 确定 性 状态 是 Ga), 
根据 12. 2 节 所 说 ， 我 们 说 策略 u 对 cost-to-go MMI OBR ON, WR AAR, 
x( 引 是 满足 下 列 条 件 的 活动 : 
Qi,pD)) = min Q“ Cia), 对 于 所 有 2 (12. 24) 


对 式 (12. 24) 的 下 列 两 点 观察 是 值得 注意 的 : | 
1. 对 于 某 一 状态 ， 可 能 存在 一 个 以 上 的 活动 ， 能 够 最 小 化 Q 因子 集合 ， 在 这 种 情况 下 ， 
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对 于 有 关 的 cost-to-go 函数 可 以 有 多 于 一 个 的 贪心 策略 。 
2. 不 同 的 cost-to-go 了 苯 数 可 能 有 一 个 相同 的 贪心 策略 。 
另外 ， 下 面 的 事实 是 所 有 动态 规划 方法 的 基础 : 


Q Gu G)) = min Q“ (i,a) (12. 25) 
这 里 u 是 最 优 策略 。 7 
用 我 们 处 理 Q -因子 和 贪心 策略 的 概念 ， 可 以 描述 策略 迭代 (policy iteration) BR, Af 
地 讲 ， 算 法 交 革 在 下 面 两 个 步骤 中 运行 : cost-to-go 
1. 策略 评估 步骤 ， 在 这 个 步骤 里 ， 对 所 有 状态 Ro 


和 行动 求 当 前 策略 的 cost-to-go 函数 值 和 相应 的 Q- 
因子 的 值 。 

2. 策略 改进 步骤 ， 更 新 当前 策略 使 其 成 为 第 一 
步 计 算出 的 cost-to-go 函数 的 贪心 策略 

这 两 个 步骤 见 图 12.3。 具 体 地 讲 ， 我 们 从 某 
一 初始 策略 uo 开始 ， 然 后 产生 一 系列 新 策略 m, 转移 柑 率 


策略 评估 





HM2 9"""o 设 当 前 策略 为 Hn’ 执行 策略 求 值 步骤 时 ， 图 12.3 策略 迭代 算法 框图 
计算 cost-to-go 函数 J% (i) ， 作 为 下 列 线 性 方程 组 的 解 (参看 式 (12. 22)): 
Jn (DD) = clis p GQ) FY psp DI CG, i= 12 N (2-96) 


其 中 Jen (1) ,Jm (2),…,J%m (CN) 是 未 知 数 。 使 用 这 些 结果 ， 我 们 对 状态 -行动 对 (i,a) 计算 
Q -因子 (参看 式 (12. 23)) 


Qr (isa) = cli, a+r dip. (a)J G), a€ Ai Fit 一 12 N (12. 27) 


接着 ,通过 + 计算 如 下 定义 的 新 策略 y+ 来 完成 策略 改进 (参看 式 (12. 24). 
por (i) = arg min Q“ Cisa), i= 1,2, N (12. 28) 


利用 策略 w+ 代替 mm， 重 复 刚 才 描 述 的 两 个 步骤 直到 有 
Jeri i) = J G), 对 于 所 有 ii 
此 时 终止 算法 于 策略 mo HF Joi SI, RA 表 12. 1 策略 迭代 算法 小 结 
以 说 经 过 有 限 次 迭代 后 策略 和 迭代 算法 会 结束 ， 因 为 1L 从 任意 的 初始 策略 p 开始 。 
固有 的 马尔 可 夫 决 策 过 程 仅 有 有 限 数 目的 状态 。 表 2 对 所 有 的 状态 Cems aE, 当 n=0,1, 
12. 1 概括 了 基于 式 (12. 26) 和 式 (12. 28) 的 策略 迭代 2，…' 计算 J OMA" Ga), 
3. 对 每 一 个 状态 i， 计 算 

算法 。 tnt CÈ) = arg min Q^ (i a) 

FERAL SSOP. RERE A MH ur 
行动 -评定 结构 (actor-critic architecture) ( Barto 
等 ，1983) 。 在 这 个 背景 下 ， 策 略 改进 被 假设 为 行动 OO OOOO OOO 
的 角色 ， 因 为 它 对 应 于 学 习 主体 行动 的 方式 。 根 据 同 样 的 意义 ， 策略 评估 被 假设 为 评定 的 角 
色 ， 因 为 它 对 应 于 评定 主体 所 采取 的 行动 的 角色 。 


12.5 ”人 和 值 迭代 


在 策略 迁 代 算法 中 ， 算 法 每 次 迭代 过 程 必 须 重 新 计算 整个 cost-to-go 函数 ,这样 代 价 是 很 
高 的 。 即 使 新 策略 和 旧 策 略 的 cost-to-go 函数 很 相似 ， 这 个 计算 也 没有 显著 的 改进 。 然 而 ， 有 
另外 一 种 用 于 寻找 最 优 策略 的 方法 能 够 在 计算 cost-to-go 函数 时 避免 烦琐 的 重复 计算 。 这 个 以 


4. 重复 第 25 3 步 ， 直到 unti 与 fin 无 差别 ， 那 时 
的 pon 就 是 所 求 的 策略 。 
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逐次 有 逼近 为 基础 的 替代 方法 就 是 值 先 代 算 法 。 

(Bik AR, (value iteration) 算法 涉及 对 有 限 范 围 问题 的 每 个 求解 序列 ， 求 解 式 (12. 22) 给 出 
的 Bellman 最 优 性 方程 。 当 算法 的 迭代 数目 趋 于 无 穷 时 ， 在 极限 处 有 限 范 围 问题 的 cost-to-go 
函数 对 所 有 的 状态 一 致 收 伍 于 相应 的 无 限 范围 问题 的 cost-to-go 函数 (Ross, 1983; Bertsek- 
as, 2007), 

4A J) BAR EAE RAK PER n 时 对 状态 i 的 cost-to-go 函数 。 算 法 从 任意 的 猜测 
Jo( 让 开始 ，i 二 1,2,…,N。 如 果 最 优 cost-to-go 函数 六 OHM fit A, BAEC MARA 
作 初 始 值 J,(i)。 一 旦 选择 了 Jo(i)， 就 可 以 计算 cost-to-go 函数 序列 Ji G), J: G), ,使 用 值 
迭代 算法 : 


J = mip{cCi,a) + 7D) Pi (ado) i= 1,2,-+,N (12. 29) 


对 于 状态 i 应 用 式 (12. 29) 描 述 的 cost-to-go MRM BH. MRA i 的 代价 的 支持 (backing up 
of i?s cost) 。 这 个 支持 是 Bellman 最 优 性 方程 (12. 22) 的 直接 实现 。 注意 对 状态 151,2, N, 
式 (12. 29) 中 cost-to-go 函数 的 值 在 算法 的 每 一 次 迭代 时 同时 更 新 。 这 个 实现 方法 表示 值 迭 代 
算法 传统 的 同步 形式 : 。 这 样 ， 从 任意 的 初始 值 J。(1) Jo), Jo ONDA, SERAH n 趋 
近 无 穷 时 ， 式 (12. 29) 描 述 的 算法 将 收敛 于 相应 的 最 优 值 六 (1), 矿 (2)，… 太 CN)。 换 句 话 
说 ， 值 迭代 需要 无 限 次 迭代 。 

与 策略 迭代 算法 不 同 的 是 ， 在 值 送 代 算 法 中 不 是 直接 计算 最 优 策略 ， 而 是 首先 用 式 
(12.29) 计算 最 优 值 J (1) ,J* (2),…,J* (N)， 然 后 获得 关于 该 最 优 和 集合 的 贪心 策略 作为 最 
优 策略 。 就 是 说 ， 


p” (i) = arg minQ (i,a), i= 1,2, N (12. 30) 
这 里 | 
Q" (isa) = clive) +79) ps a) G), i=1,2,,N (12. 31) 


表 12.2 给 出 了 基于 式 (12， 29) 至 式 (12. 31) BY AEE AR ERE BY ， 其 中 包括 式 (12. 29) 的 停 
止 准则 。 


表 12.2 MARANA 
l. 从 状态 1 一 1 2 的 任意 初始 值 IOS. 
2. Hf n=0,1,2.- ,计算 
N 
Jnr) = min {cG 十 y py DJG)» } oe 
a i gel 1 一 


重复 这 种 操作 直到 
| Jan (C2) = Ge) | <e, 对 每 个 状态 i 
这 里 的 = 是 指定 的 容许 参数 。 假 定 s 足够 小 ， 使 J,( 引 充分 接近 最 优 cost-to-go 函数 J* (i) 。 因 此 我 们 可 以 置 
1,@®=J]*@ 对 所 有 状态 1 
3. 计算 Q -因子 
N ` 
Q* (isa) = clissa) + D py Cad * QG)» aes 


pe” Gi) = arg min Q* (i,a) 
a€ sf. 
eS 
例 1 值 迁 代 和 策略 选 代 之 间 的 关系 


为 了 理解 值 送 代 和 策略 迭代 之 间 的 关系 ， 考 虑 图 12.4 所 示 的 例子 。 图 中 a HE TERE 
代 中 计算 Q-AF Q& (i,a) 的 候选 操作 ，b HM THAR PITH Q- 因 于 Q Ga) 的 相应 的 候选 操 
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作 。 图 中 每 一 个 无 阴影 的 小 圈 表 示 一 个 状态 ， 每 一 个 有 阴影 的 小 圈 表 示 一 个 状态 -行动 对 。 假 设 
MRSJ 开始 。 学 习 系 统 可 能 取 三 个 可 能 行动 中 的 任意 一 个 ， 环 境 能 够 响应 与 6 个 可 能 状态 -行动 
对 中 的 任意 一 个 ; Gia) 是 这 样 的 一 个 状态 -行动 对 ， 对 其 的 变换 代价 记 为 g(i,7)。 

检查 图 12.4， 可 以 发 现 策 略 迭 代 和 值 迭 代 的 后 备 操作 是 等 价 的 ， 除 了 一 个 基本 不 同 外 : 


值 迭 代 需 要 在 所 有 可 能 状态 -行动 对 上 取 的 最 大 值 ， 如 图 12. 4b 所 示 。 m 





在 所 有 可 能 、 
状态 -行动 对 
PREA 





a) b) 
12.4 对 a) HMBERA D (KARA RETR 


例 2 了 驿 车 问题 

为 了 说 明 Q -因子 在 动态 规划 中 的 作用 ， 考 虑 驿 车 问题 (stagecoach problem), ZE 19 世纪 
中 叶 密 苏 里 的 一 个 探索 者 决定 去 西部 加 入 在 加 利 福 尼 亚 的 淘金 淹 (Hiller and Lieberman, 
1995)。 行程 需 要 乘 驿 车 穿 过 不 安全 的 乡村 ， 沿 途 会 有 强盗 攻击 的 危险 。 行程 的 起 始点 〈( 密 苏 
里 州 ) 和 终点 (加利福尼亚 州 ) 是 固定 的 。 但 是 有 很 多 可 以 选择 的 路 径 ， 有 可 能 经 过 其 他 8 个 
州 ， 如 图 12. 5 所 示 。 在 图 中 ， 有 以 下 规定 : 

。 一 共 10 个 州 ， 每 个 州 用 一 个 字母 表示 。 

。 行进 的 方向 是 从 左 到 右 。 

。 从 开始 的 状态 A( 密 苏 里 州 ) 到 终点 的 状态 J (加利福尼亚 州 ) 有 4 个 阶段 ‘ 即 ， 伦 车 


运行 路 径 )， 
。 探索 者 从 一 个 状态 到 下 一 个 状态 行动 是 向 上 (Up)、 直 接 向 前 (Straight) Rel F 
(Down) 的 。 


。 从 A 到 J 一 共有 18 条 可 能 路 径 。 





图 12.5 驿 车 问题 的 流向 图 
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图 12. 5 还 包括 对 每 一 条 路 径 的 人 身 保 险 策略 的 代价 ， 选 择 每 一 条 路 线 是 基于 对 该 路 线 的 
安全 代价 的 仔细 评估 。 问 题 是 从 A 到 .找到 一 条 人 身 保 险 最 廉价 的 路 线 。 
为 了 找到 最 优 路 线 ， 我 们 从 终点 开始 向 后 推演 ， 考虑 一 系列 有 限 范 围 问 题 。 这 符合 
12.3 节 的 Bellman 最 优 性 原则 。 
计算 终点 前 的 最 后 一 阶段 的 Q -因子 ， 从 图 12. 6a 可 以 得 出 终点 Q@ - 值 如 下 : 
Q(H,down) = 3 
Q(T, up) 一 4 
在 图 12. 6a 中 ， 这 些 数 值 分 别 表 示 在 状态 映 和 I 上， 
然后 向 后 再 移动 一 阶段 ， 使 用 图 12. 6a 得 出 的 Q - 值 ， 计 算 下 面 的 Q - 值 : 


Q(E,straight) = 1 十 3 一 4 
QCE,down) = 44+4=8 
Q(F,up) = 6 十 3 二 9 
Q(F,down) = 3+4=7 
Q(G,up) = 3 十 3 一 6 
Q(G,straight) = 3+4=7 


由 于 需要 找到 最 小 保险 策略 的 路 径 ，Q - 值 表明 只 有 EE 一旦 ，F 一 I 和 G 一 日 路径 应 保留 ， 而 其 
他 路 径 应 删除 ， 如 图 12. 6b Bray. 
再 向 后 移动 一 阶段 ， 对 状态 B，C，D 重复 这 种 Q -因子 计算 , 保留 那些 有 最 低 安 全 评价 
的 路 径 ， 就 得 到 图 12. 6c。 | 
最 后 ， 向 后 移动 到 第 一 阶段 ， 重 复 上 面 的 计算 ， 就 得 到 图 12. 6d。 从 图 中 我 们 看 到 共有 3 
条 最 优 路 径 如 下 : 
A—~C—E—H— /J 
A 一 卫 一 下 一 万 一 J/ 
A>D—>-F>I>J 
它们 产生 的 总 体 代 价 都 是 11。 也 要 注意 的 是 通过 B 的 所 有 3 个 最 优 路 径 中 在 前 进 中 的 所 有 3 
个 可 能 选择 中 从 A 到 B 的 瞬时 代价 是 最 小 的 。 = 


3 





图 12.6 计算 驿 车 问题 Q -因子 涉及 的 步骤 
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12.6 逼近 动态 规划 : 直接 法 


Bellman 动态 规划 是 完美 的 。 然 而 ， 它 假设 从 一 个 状态 到 另 一 个 状态 之 间 的 转移 概率 的 显 
式 模型 是 可 用 的 。 不 幸 的 是 ， 在 多 个 实际 情形 下 ， 这 样 的 模型 是 不 能 得 到 的 。 然 而 ， 有 了 构造 
良好 的 动态 规划 ， 其 状态 空间 具有 易 控 制 的 大 小 ， 我 们 可 以 利用 Monte Carlo 模拟 来 显 式 地 信 
计 转 移 概 率 及 相应 的 转移 代价 ; 从 其 自身 的 特性 ， 这 样 的 估计 是 逼近 的 。 我 们 称 这 一 方法 是 直 
eH (direct) 逼近 动态 规划 ， 因 为 这 里 讲述 的 模拟 的 使 用 方便 了 动态 规划 方法 的 百 接 应 用 。 

作为 直观 的 例子 ， 考 虑 一 个 多 用 户 信道 网 络 ， 关 于 它 的 感 兴趣 的 问题 是 动态 频道 分 配 。 假 
设 分 配给 频道 使 用 的 模式 的 代价 依赖 于 通过 给 定 频 道 的 通话 间 的 距离 。 具 体 来 说 ， 在 频道 分 享 
通话 中 彼此 靠近 的 用 户 模 式 比 彼此 较 远 的 频道 分 享 通话 模式 更 有 利 。 换 句 话 说 ， aes 
ae pe Tk PF BRE A RS RRA RR RTS. AS ER IS Re 
就 可 以 利用 Monte Carlo 模拟 来 允许 动态 规划 直接 应 用 于 这 样 的 网 络 (Nie and Haykin, 
1998), 

基本 上 ， 动 态 规划 的 直接 应 用 的 合理 性 在 于 利用 计算 机 模拟 来 产生 多 系统 轨迹 (multiple 
system trajectories) ， 这 导致 对 于 每 个 状态 值 具 有 独立 人 口 的 查找 表 (look-up table) 的 构造 ; 
系统 轨迹 的 数目 越 大 ， 模 拟 结 果 将 自然 地 更 可 信 。 特 别 地 ， 每 一 次 状态 i 被 模拟 系统 的 轨迹 访 
问 时 独立 变量 J (2) 被 保留 在 存储 中 。 这 样 做 时 ， 我 们 已 经 用 从 状态 i 到 状态 7 的 概率 转移 和 发 
生 的 瞬时 转移 代价 g (i, 门 模拟 了 一 个 动态 系统 。 

因此 ， 该 阶段 为 两 个 基本 动态 规划 方法 直接 到 近 : 值 迭 代 和 策略 迭代 。 特 别 地 ， 

© 在 值 迭 代 的 情形 ， 我 们 得 到 时 序 差分 学 习 ; 

。 在 策略 迭代 的 情形 ， 我 们 得 到 Q -学 习 。 

这 两 个 算法 分 别 在 第 12.7 节 和 12. 8 节 中 讨论 ， 它 们 在 强化 学 习 中 是 广为人知 的 。 我 们 因 
此 将 强化 学 习 看 成 是 动态 规划 的 直接 应 用 。 

最 后 的 评论 ;自然 地 ， 查 找 表 的 建立 是 有 存储 限制 的 。 因 而 时 序 差分 和 Q -学 习 的 实际 应 
用 限制 于 状态 空间 是 中 等 大 小 的 状况 。 


12.7 时序 差分 学 习 


时 序 差 分 学 习 的 思想 最 早 见 于 Sutton (1988)。 我 们 通过 考虑 这 一 动态 规划 逼近 形式 的 最 
简单 版 本 〈 称 为 TD(0) 算 法 ) 来 开始 讨论 ，TD 是 指 时 序 差分 (temporal difference). 
TD(0) 学 习 算 法 

A 为 导致 马尔 可 夫 决 策 过 程 状态 演化 的 策略 。 状 态 是 通过 序列 (i) oO RGR, 状态 
转移 的 最 高 数目 是 N， 终 止 状态 in=0. S gin DWARA i 转移 到 状态 t+: 时 发 生 的 瞬 
时 代价 ， 其 中 索引 上 一 0,1,…,N 一 1。 然 后 根据 Bellman 方程 ，cost-to-go 函数 定义 为 : 

JG) = Elg Cin sima) +J“ CGmi)]s n 二 01 人 一 上 (12. 32) 
其 中 ， 对 每 个 n， 在 所 有 可 能 发 生 的 状态 如 :上 计算 总 体 平 均 。 从 实际 的 角度 看 ， 我 们 需要 的 
是 一 个 迭代 算法 ， 它 能 够 避免 总 体 平均 的 需要 。 为 此 ， 可 以 调用 在 第 3 章 中 讨论 过 的 Robbins- 
Monro 随机 通 近 。 

为 了 这 一 随机 到 近 的 实质 a 
= Q= prt pe rd) 

其 中 7 是 旧 值 ， EN TEA RKERA TF -RKRERRERE, SHORE 
oA pv (5|7) 产 生 的 随机 变量 ; 如 前 一 章 所 述 ， Er 中 的 上 标 加 号 表示 “更 新 ”。 
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因此 ， 将 Robbins-Monro 随机 通 近 用 于 式 (12. 32) 的 Bellman 方程 ， 得 到 
JE Ga) = A PIG.) + glg Gn sim) $I Ga) ] 
= JG) H glg Cinsin) +J Gm) — J Ga) | (12. 33) 
其 中 左边 的 J (i,) 是 更 新 估计 ， 在 每 一 次 状态 i, 被 访问 时 计算 。 为 了 简化 问题 ， 我 们 现在 引 
和 人 时序 差 分 ， 定 义 为 
dn 一 gil 十 CD 一 Gn) 7 一 0 1 人 一 (12. 34) 
这 表示 了 两 个 量 之 间 的 差 : 
。 基于 当前 状态 模拟 结果 的 总 体 cost-to-go AM, BM gi. inti) HJ Gati); 
© 当前 估计 J (i,)。 
实际 上 ， 时 序 差分 d, 为 当前 估计 (i,) 是 增长 还 是 下 降 提 供 了 信号 。 利 用 式 (12. 34) 的 定 
义 ， 可 以 将 式 (12. 33) 的 迭代 算法 重 写 为 简单 形式 : 
JE Ga) = J(i,) + yd, (12. 35) 
其 中 J, DEMA, JOUER ae. RAM pd (n) 是 作用 于 当前 估计 上 为 了 产生 更 新 
项 的 修正 (correction)。 
式 (12. 35) 的 一 步 更 新 规则 通常 被 称 为 TD(0) 算 法 ; 这 一 命名 的 原理 在 本 节 的 后 面部 分 将 
变 得 很 明显 。 每 一 次 状态 i, 被 访问 时 更 新 会 发 生 ， 时 序 差分 d, 也 成 为 可 用 的 。 
Monte Carlo 模拟 算法 


式 (12. 35) 描 述 了 一 个 特别 的 迭代 算法 ， 由 Bellman 方程 推导 而 得 。 从 另 一 个 观点 和 不 同 
的 算法 上 看 ， 考 虑 如 下 的 cost-to-go HR 


J Ci, ) = E| D glisin) |: n= 0,1, 一】 (12. 36) 
其 中 ， 这 一 次 ， 期 望 算 子 是 作用 于 属于 整个 状态 转移 序列 的 独立 代价 的 。 这 里 再 一 次 将 Rob- 
bins-Monro 随机 和 逼近 作用 到 式 (12. 36)，、 得 到 (在 整理 了 共同 项 后 )， 


JE Gg) = JG) +h D glinm) — J(i)) (12. 37) 
其 中 wm 是 随时 间 变 化 的 步 长 〈 学 习 率 ) 参数 。 这 一 更 新 公式 可 以 表示 成 等 价 形式 ， 
JT Gy) = IG) + ple Gin ster) +I Gan) — J Ga) H g Cni vin) + flint) 一 了 it) 
+ glin-osina) +J Cina) — J Gna) + gina sin) +I Gin) — J Gra) J 
其 中 ， 最 后 一 行 利 用 了 终止 状态 in=0 的 性 质 ， 这 相应 地 意味 着 代价 J(in) 二 0。 相应 地 ， 引 用 
式 (12. 34) 中 引入 的 时 序 差 分 的 定义 ， 我 们 发 现 式 (12. 37) 的 和 迭代 算法 可 假设 为 简化 形式 


Jt (Ci) = JCG) + Dy dmn (12. 38) 
实际 上 ， 式 (12. 38) 是 轨迹 人 zav) 的 Monte Carlo 模拟 的 迭代 执行 ， 其 中 i 二 0 一 一 因 
此 将 这 一 方程 称 为 Monte Carlo 模拟 算法 。 为 了 验证 这 一 陈述 ， 我 们 做 两 个 假设 : 
1. 差分 模拟 系统 轨迹 是 统计 独立 的 。 
2. .每 一 个 轨迹 是 根据 策略 yx 下 的 马尔 可 夫 决 策 过 程 产生 的 。 
继续 这 一 证 明 过 程 ， 令 c(i,) 家 示 在 模拟 时 间 n 遇 到 状态 i 时 序列 Canine ,in}) 发 生 
的 代价 总 和 ; 即 


Clin) = Pglinminm), 天 一 0 1 六 一 1 (12. 39) 
然后 ， 可 以 用 
Jig) = a Dein) (12. 40) 
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这 是 在 访问 了 状态 i 一共 工 次 模拟 之 后 计算 的 。 因 此 ， 总 体 平均 cost-to-go RAH ite 


J“ Gin) 二 ELc(i,)]， 对 于 所 有 7 (12. 41) 
直接 可 证 式 (12. 40) 的 样本 均值 可 以 通过 下 面 的 迭代 公式 来 计算 
JG.) = JG) + a leG,) — JG) (12. 42) 
从 如 下 的 初始 条 件 开 始 
J(i)=0 
并 设 步 长 参数 为 
pot, 1 (12. 43) 


我 们 发 现 式 (12. 42) 是 式 (12. 38) 的 迭代 算法 的 简单 重 写 ， 此 时 利用 了 为 处 理 Monte Carlo 模拟 
时 序 差 分 的 观点 而 引入 的 新 记号 。 
时 序 差 分 的 联合 观察 : TD(A) 
在 刚刚 讨论 过 的 时 序 差分 学 习 中 ， 我 们 推导 了 和 迭代 算法 的 两 个 有 限 形 去: 
。 式 (12. 35) HIER BIE, M Bellman 方程 推导 而 得 ， 说 明 从 状态 in Bj int 的 转移 瞬时 
代价 。 
© 式 (12. 38) 的 迭代 算法 ， 根 植 于 Monte Carlo 模拟 ， 说 明 在 整个 序列 上 状态 转移 招致 的 
累计 代价 。 
显然 ,在 这 两 个 迭代 过 程 中 必定 存在 一 个 中 间 范 围 ， 这 值得 考虑 。 为 了 得 到 这 一 中 间 范 
围 ， 我 们 引 人 两 个 修正 〈Bertsekas and Tsitsiklis, 1996): 
1. 扩展 Bellman 方程 以 考虑 对 茶 固 定 的 / 转移 到 第 一 个 ! 十 1 状态 招致 的 独立 代价 : 


JeG,) = ELD) eCa inser) +I" Gira ] (12. 44) 
2. 没有 先 验 知识 用 于 促成 相对 于 其 他 值 来 说 某 个 希望 的 / 值 ， 我 们 通过 在 式 (12. 44) 的 右 
端 乘 以 (1 一 1)X 来 形成 在 所 有 可 能 多 步 Bellman 方程 上 的 加 权 平 均 并 且 对 某 个 固定 的 4<<1 在 / 
上 求 和 : 
JG) = -aA) E| Da Dy gin rinan) + J Ge) | 7 
由 于 我 们 正在 处 理 线性 方程 ， 因 此 可 以 交换 和 的 顺序 : 
J*(i,) = eo 十 | (12. 45) 
现在 采用 下 面 两 个 公式 的 记号 : 和 
l (1 =a) Px 一 > = 2 


CA) SAT Gnas) = > A C= > Gee) 


f=0 


= = 一 > Gim) HJG) 


相应 地 ， 可 以 重 写 式 (12. 45) 为 等 价 形式 
J’ Ci, ) =e] Sy Co Cinte tater) tA TP Gey) HA Cite)? | HJ" i, ) (12. 46) 


其 中 ， 为 了 表示 的 紧凑 ， 我 们 对 右 端 方 括号 中 的 三 个 项 简单 地 利用 了 & 来 代 蔡 !。 现 在 可 以 通 
过 式 (12. 34) 引 入 的 时 序 差 分 定义 来 简化 问题 了 。 为 了 这 样 做 ， 我 们 再 一 次 重 写 式 (12. 46) 为 下 
面 的 简单 形式 
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ome El > 十 Ji) 


= g| Dated, | HJG), Y= Ol NI (12. 47) 


认识 到 对 某 固 定 的 值 M， 对 依照 Bellman 方程 的 所 有 &, RINBEAGI=-0. RMLFRUAAL 
(12.47) 有 什么 奇怪 。 某 种 意义 上 ， 可 以 在 点 1 和 2 下 的 修正 将 分 析 的 网 络 结果 求 和 ， 仅 仅 对 


于 所 有 的 EGRE GJE G JIE RMEAA E Yaa, |= 0 。 无 论 如 何 ， 这 一 结 


果 都 不 会 对 我 们 继续 应 用 Robbins-Monro 随机 逼近 产生 显著 影响 ， 正 如 下 面 要 说 明 的 那样 。 
具体 地 讲 ， 将 这 一 逼近 应 用 到 式 (12.47) 产 生 和 迭代 算法 : 


JE GD = A PI Gd + Sard. + IG,>) 
在 消去 一 些 项 后 ， 简 化 为 
JE Gd = Ji) no Ad, (12. 48) 


(12.48) 的 迭代 算法 通常 称 为 TD(A);， 如 前 所 述 ，TD 意味 着 “时 序 差 分 ”。 这 一 算法 
是 Sutton (1988) 首先 提出 的 。 值 得 注意 的 是 为 了 推导 这 一 算法 ， 我 们 利用 了 Bellman 动态 规 
Xj. Monte Carlo 模拟 、 随 机 通 近 的 思想 。 

而 且 ，TD(CX) 包 含 了 式 (12. oR 38) 的 近代 算法 作为 两 个 特例 : 

1. MRS A=—0 且 利 用 规定 0 二 1， 则 式 (12. 48) EWA : 

Gi.) = JG) + yd, 

这 是 由 利用 动态 规划 方法 推导 的 式 (12. 35) 的 重复 。 事 实 上 ， 这 是 式 (12. 35) 的 算法 被 称 为 TDO) 
的 原因 ， 正 如 我 们 前 面 指出 的 那样 。 

2， 对 另 一 个 有 限 情形 ， 如 果 令 人 =1， 则 式 (12. 48) MA 


Jt GD = IG, +9 Dy dens 

除 伸 缩 因 子 7 外 ， 上 式 是 利用 Monte Carlo 评估 方法 推导 的 式 (12. 38) 的 重复 。 注 意 对 于 壮大 
于 或 等 于 规划 范围 N 时 时 序 差分 d, 是 0. 
作为 小 结 ， 我 们 可 以 陈述 如 下 ，; 

式 (12. 48) 讲 述 的 TD 方法 是 一 种 在 线 预 测 方 法 ， 它 学 习 如 何在 部 分 基于 其 他 估计 时 计算 
它们 的 估计 。 

换 句 话说 ，TD 方法 是 一 种 引导 指令 (bootstrapping) 方法 。 更 重要 的 是 ， 它 们 不 需要 环 
境 模型 。 
实际 考虑 

根据 Bertsekas and Tsitsiklis (1996) ， 对 某 状态 如， 由 TDGA) 算 法 产生 的 估计 值 1(i) 收 
KEEK 的 总 体 平均 值 J“(4)， 如 果 下 面 的 两 个 条 件 得 到 满足 : 

1. 对 所 有 的 状态 i, 被 轨迹 频繁 地 访问 无 数 次 。 

2. 步 长 参数 » 被 允许 在 适当 的 速率 下 减少 到 0 。 

在 Bertsekas and Tsitsiklis (1996) 对 这 一 收 伍 性 的 证 明 中 显示 ， 在 完成 TD(CA) 算 法 的 学 
习 过 程 中 ， 参 数 4 的 改变 没有 理论 上 的 障碍 。 那 儿 的 理论 考虑 为 选择 合适 的 4 值 建议 了 一 YX 
感 策略 ， 从 接近 于 1 的 大 的 4 值 开始 TD(4) 算 法 的 执行 ( 即 初始 阶段 促进 总 体 平均 cost-to-go 
函数 的 Monte Carlo 估计 )， 然 后 允许 A 衰减 到 0 即 ， 向 根据 Bellman 方程 产生 的 估计 移动 )。 
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在 广泛 的 意义 上 说 ，X 是 某 种 形式 的 在 时 间 过 程 上 的 退火 。 
12.8 QQ -学 习 


前 一 节 作 为 动态 规划 的 随机 逼近 推导 得 到 的 TD(4) 算 法 是 无 模型 算法 。 这 一 节 中 ， 我 们 措 

一 个 随机 算法 ， 称 为 Q -学 习 ， 它 也 不 需要 显 式 的 关于 环境 的 知识 。Q -学 习 由 Watkins 
(1989) 首先 推导 出 来 的 。Q -学 习 中 的 字母 Q 并 不 意味 着 什么 特别 的 意义 ; EMH Watkins 
在 他 最 初 推导 这 一 算法 时 采用 的 记号 。 

为 了 激发 Q -学 习 的 讨论 ， 考 虑 图 12. 1 中 的 强化 学 习 系 统 。 这 一 系统 的 行为 目标 ， 是 在 试 
验 各 种 可 能 的 行动 序列 和 观察 引起 的 代价 以 及 发 生 的 状态 转移 之 后 ， 如 何 寻 找 最 优 〈 即 最 小 化 
代价 ) 策略 。 用 于 产生 行为 的 策略 被 称 为 行为 策略 (behavior policy) 。 这 一 策略 是 与 估计 策略 
值 为 目的 的 估计 策略 Cestimation policy) 不 同 的 。 有 了 这 两 个 彼此 不 同 的 策略 ，Q -学 习 被 称 
为 用 于 控制 的 off-policy 方法 。 从 这 一 分 别 中 得 到 的 好 处 是 估计 策略 可 以 是 贪心 的 ， 而 行为 策 
略 用 于 样本 化 所 有 可 能 的 行动 。Off-policy 方法 可 以 从 on-policy 方法 中 区 别 开 来 ， 其 中 策略 的 
值 被 估计 ， 同 时 该 值 被 用 于 控制 。 
Q -学 习 算 法 


5, = (i, sån sjn sgn) (12. 49) 
一 个 四 元 组 样本 由 下 述 项 组 成 : 在 状态 i, 上 的 一 个 试验 行动 a.， 以 代价 
Bn = Ella sns fn) (12. 50) 


对 j, 三 i141 的 状态 转移 。 其 中 表示 离散 时 间 。 给 定 了 这 样 的 方案 之 后 ， 我 们 现在 给 出 如 下 的 

是 否 存 在 在 线 方法 通过 经 验 学 习 最 优 控 制 策 略 ? 经 验 是 仅仅 从 观察 样本 的 基础 上 获得 的 ， 
样本 的 形式 在 式 (12. 49) 和 式 (12. 50) 中 定义 。 

对 于 这 个 基本 问题 的 回答 是 肯定 的 ， 它 能 在 Q -学 习 中 找到 `。 

Q -学 习 是 一 种 增 量 式 的 动态 规划 过 程 ， 用 一 步 一 步 的 方式 来 决定 最 优 策 略 。 它 非常 适合 
于 求解 没有 明显 的 转移 概率 知识 的 马尔 可 夫 决 策 问题 。 但 是 ， 和 TDC) 相似 ， 成 功 应 用 Q -学 
习 的 关键 在 于 假设 环境 状态 是 完全 可 观察 的 ， 这 就 意味 着 环境 是 完全 可 观察 的 马尔 可 夫 链 。 

回忆 12. 4 节 ， 状 态 -行动 对 (i,a) 的 Q@- 因 子 Q(i，a) 是 由 式 (12.23) 定 义 的 ， 而 Bellman 
最 优 性 方程 由 式 (12. 22) 定 义 。 联 合 这 两 个 方程 并 且 利 用 (12. 20) 给 出 的 瞬时 期 望 代 价 c(i,a) 的 
定义 ， 我 们 得 到 


Q (i,a) = $) ps0) (gis) + 7 ming GD). 对 于 所 有 (ia) (12.51) 


这 可 看 作 Bellman 最 优 性 方程 的 两 步 形式 。 式 (12. 51) 的 线性 方程 组 的 解 对 所 有 状态 -行动 对 
(i,a) 唯一 地 定义 最 优 Q - 因 了 于 Q” (i,a)。 
我 们 可 以 利用 12. 4 节 中 基于 Q@- 因 子 构造 的 值 迭代 算法 求解 这 个 线性 方程 组 。 因 此 ， 对 于 


算法 的 一 步 迭 代 我 们 有 
Q' (i,a) = >) ps (a)(glisarj)tyminQj.)), 对 于 所 有 (ia) 
这 个 迭代 的 小 步 长 的 形式 可 描述 为 
Q* Ga) = (1 — )QGia) IDa (a) (gras) +yminQG.b)), 对 于 所 有 (ia) 
i | (12. 52) 


ww ai bbt. com TOOOOO 0 





第 12 章 动态 规划 


其 中 7 为 很 小 的 学 习 率 参数 ， 位 于 区 间 0<7<1 内 。 
从 它 的 形式 上 看 ， 由 式 (12. 52) 摘 述 的 值 迭 代 算 法 的 一 次 迭代 要 求 转移 概率 的 知识 。 我 
们 可 以 构造 这 一 方程 的 随机 方式 ， 从 而 消除 对 这 一 先 验 知识 的 需求 。 具 体 地 讲 ， 在 式 
(12.52) 的 一 次 迁 代 中 对 所 有 可 能 状态 求 平均 被 单个 样本 所 替代 ， 因 而 导出 下 列 对 Q -因子 
的 更 新 公子 
Qumi Ga) = A 7G,a))Q,G,a) + y, Gal gGsasj) +y G) | 4G.a) = (insan) 
(12. 53) 
其 中 
IQ) = min Q, (j +5) (12. 54) 


旦 7 为 后 继 状态 ，m (i,a) 为 在 时 间 步 n 时 状态 -行动 对 (i,a) 的 学 习 率 参数 。 更 新 公式 
(12. 53) 应 用 于 当前 状态 -行动 对 (i, ,av)， 根 据 式 (12. 49) 此 时 7 二 j,。 对 允许 的 其 余 状 态 - 行 动 
对 ，Q -因子 仍 保 持 不 变 ， 表 示 为 


Qui Cia) = Q, Cia) 对 于 所 有 的 (i,a) 天 (in san) (12.55) 
式 (12. 53) 至 式 (12. 55) 组 成 Q -学 习 算 法 的 一 次 迭代 。 
We Be set FS 
假设 学 习 率 参数 mn.(i,a) 满 足 条 件 : 
Di = 和 Diaa <o 对 于 所 有 的 (ia (12. 56) 


LRG BERS 大 时 ， 假定 所 有 的 状态 - -行动 对 被 无 限 地 经 常 访 问 ， 那 么 ， 对 所 有 状态 
行动 对 (i,a) 由 QQ- 学 习 算 法 产生 的 Q -因子 序列 {Q, Ga) AWE 1 收 化 于 最 优 值 Q Ga). 


一 个 保证 算法 收敛 的 时 变 学 习 率 参数 的 样本 为 


_ 4 = a ) 
an er 125 (12. 57) 





其 中 a 和 BB 为 正 数 。 
Ay SG Bit ie 
Q -学 习 可 以 看 成 两 个 等 价 方式 中 的 一 个 : 
作为 Robins-Monro Mi Mis it HE ATE HAA KF Monte Carlo 模拟 的 组 合 。 


在 算法 的 每 一 步 迭 代 中 它 支持 单个 状态 -行动 对 的 Q -因子 。 最 重要 的 是 ， 无 需 形 成 固有 的 
马尔 可 夫 决 策 过 程 的 明显 模型 ， 算 法 的 极限 收敛 到 最 优 Q - 值 。 一 旦 最 优 Q - 值 可 用 ， 利 用 式 
(12. 30) 以 相当 少 的 计算 便 可 决定 一 个 最 优 策略。 

假设 使 用 查找 表 来 表示 状态 -行动 对 (i,a) 的 Q -因子 Q,(i,a)，Q -学 习 算法 收敛 到 最 优 策 
略 这 种 表示 方法 简单 且 计 算 效 率 高 。 但 是 它 仅 在 构成 联合 输入 空间 的 状态 -行动 对 为 中 等 规模 
时 才能 有 效 。 
探测 

在 策略 迁 代 中 ， 状 态 空间 的 所 有 潜在 的 重要 部 分 都 应 探测 到 。 在 Q -学 习 中 我 们 有 一 个 办 
加 要 求 ， 所 有 次 在 有 用 的 行动 也 都 应 被 测试 。 特 别 地 ， 对 所 有 人 允许 的 状态 -行动 对 应 该 经 
测 足够 的 次 数 以 满足 收敛 定理 。 对 于 记 为 上 的 食 心 策略 ， 只 有 状态 - 行 瑟 再 人 REM, 
遗憾 的 是 并 不 能 保证 测试 所 有 有 用 的 行动 ， 即 使 探测 完 所 有 状态 空间 亦 是 如 此 。 

我 们 需要 的 策略 是 提供 两 个 冲突 目标 之 间 的 折 中 ， 以 此 扩展 Q- (Thrun, 1992): 

。 探测 ， 它 保证 对 所 有 允许 的 状态 -行动 对 探测 足够 次 数 以 满足 Q -学 习 收 敛 定 理 。 
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。 利用 ， 它 遵循 贪心 策略 以 寻求 最 小 化 cost-to-go MR. 
达到 这 种 折 中 的 一 种 方法 为 遵循 混合 非 稳 定 (mixed nonstationary) 策略 ， 这 一 策略 在 辅 
助 马尔 可 夫 过 程 和 原始 马尔 可 夫 过 程 之 间 转 换 ， 原 始 马尔 可 夫 过 程 ， 是 由 Q -学 习 确 定 的 稳定 
贪心 策略 控制 的 〈Cybenko,1995) 。 辅 助 过 程 有 下 列 解 释 ， 可 能 状态 间 的 转移 概率 由 原始 控制 
过 程 的 转移 概率 确定 ， 原 始 过 程 具 有 附加 成 分 ， 其 对 应 的 行动 是 一 致 随机 性 的 。 混 合 策略 从 畏 
助 过 程 的 任何 状态 开始 ， 随 之 选择 行动 ， 然 后 切 辅助 过 程 。 ”原始 控制 过 程 
换 到 原始 控制 过 程 ， 以 图 12.7 中 的 方式 向 前 或 向 
BE. HREM DHE LAREN AAS 
数目 的 工 步 ， 定 义 为 访问 辅助 过 程 所 有 状态 的 最 EM mo o Me oe 
长 期 望 时 间 的 2 倍 。 消 耗 在 原始 控制 过 程 的 时 间 图 12.7 居于 辅助 过 程 和 原始 控制 过 程 的 时 间 段 
随 每 次 切换 逐步 增加 。 令 ni 表示 从 辅助 过 程 到 原始 控制 过 程 的 切换 时 间 ，m 表示 切换 回 辅助 
过 程 的 时 间 ，m Alm, 分 别 定义 为 
nt 二 mi 十 上 ， 上 一 1,2,… 和 mo 二 1 (12. 58) 
和 
m, = n FEL, kR=1,2,°°° 
构造 辅助 过 程 使 得 当 A->ce 时 ， 以 概率 1 访问 所 有 状态 无 穷 次 ， 因 而 保证 收敛 到 最 优 Q -因子 。 
进一步 ， 当 &A->co， 混 合 策略 在 辅助 过 程 上 所 消耗 的 提 作 时 间 渐 进 地 为 消耗 在 原始 控制 过 程 的 
操作 时 间 的 一 小 部 分 ， 这 就 意味 着 混合 策略 渐进 收敛 到 一 个 贪心 策略 。 因 此 ， 如 有 果 Q -因子 收 
伍 到 它们 的 最 优 值 ， 贪 心 策略 确实 必定 是 最 优 的 ， 只 要 策略 变 为 贪心 策略 时 足够 地 慢 。 


12.9 逼近 动态 规划 : 非 直接 法 


典型 地 ， 大 规模 动态 系统 具有 高 维 状态 空间 。 所 以 ， 当 我 们 处 理 这 样 的 系统 时 ,会 过 到 维 
数 灾 问题 ， 这 是 指 随 着 状态 空间 维 数 的 增加 计算 复杂 度 呈 指数 增长 。 不 幸 的 是 ， 维 数 灾 不 仅 在 
Bellman 动态 规划 中 出 现 ， 而 且 在 其 两 个 直接 盘 近 形式 中 〈 时 序 差分 学 习 和 Q -学 习 ) eR 
手 的 。 为 了 说 明 这 一 重要 的 实际 问题 ， 考 虑 包含 N 个 可 能 状态 和 对 每 个 状态 有 M 个 允许 行动 
的 动态 规划 问题 ; 在 这 样 的 系统 中 ， 例 如 值 迭 代 算 法 的 每 一 次 迭代 对 于 稳定 策略 需要 NM 次 
运算 。 当 N 很 大 时 运算 所 需 的 计算 量 使 得 它 甚 至 不 可 能 完成 算法 的 一 次 迭代 。 

为 了 处 理 包 含 大量 状 态 的 困难 的 实 世 界 问题 ， 我 们 可 以 寻找 逼近 动态 规划 的 某 种 逼近 形 
式 ， 这 与 12.6 节 讨 论 的 直接 法 是 不 同 的 。 特 别 地 ， 不 同 于 我 们 在 12. 6 节 所 做 的 对 转移 概率 和 
相 联 转移 代价 的 显 式 估 计 ， 我 们 现在 做 如 下 事情 : 

利用 Monte Carlo 估计 来 生成 一 个 或 多 个 系统 轨迹 使 其 通 近 一 个 给 定 策 略 的 cost-to-go $ 
数 甚 至 最 优 的 cost-to-go 函数 ， 然 后 在 某 种 统计 意义 下 最 优化 这 个 逼近 。 


我 们 将 这 一 逼近 动态 规划 方法 称 为 非 直接 * 的 ， 以 便 和 12. 6 节 讨 论 的 直接 方法 区 分 开 来 。 


因此 ， 放 弃 了 最 优 性 的 概念 ， 我 们 可 以 通过 下 面 简 单 的 陈述 来 给 出 非 直接 法 逼近 动态 规划 
的 目标 : 
尽 可 能 地 做 好 ， 而 不 是 更 多 。 


事实 上 ， 性 能 最 优 性 是 计算 易 处 理性 的 折 中 。 这 种 策略 正 是 人 类 大 脑 每 天 所 做 的 : 给 定 一 
个 复杂 的 决策 问题 ， 大 脑 提供 一 个 次 优 解 ， 它 从 可 靠 性 以 及 可 用 资源 分 配 的 角度 上 来 说 是 “最 
好 的 ”。 
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有 了 Bellman 动态 规划 理论 作为 参考 的 框架 ， 逼 近 动 态 规划 的 目标 可 以 陈述 如 下 : 

对 于 状态 i FRIBU RK cost-to-go 函数 J (i) 的 函数 Jiw)， 使 得 代价 差 J* (CD) 一 了 (Ci 
w) 根 据 某 种 统计 准则 最 小 化 。 

有 了 这 两 个 目标 ， 我 们 现在 有 两 个 基本 问题 : 

问题 1; 一 开始 如 何 选择 逼近 函数 J](i,w)? 

问题 2: 已 经 选择 了 通 近 函数 J(i,w) 以 后 ， 如 何 自 适应 权 值 向 量 w 来 为 Bellman 方程 的 最 
优 性 提供 “最 好 匹配 ”? 

为 了 回 到 问题 1， 我 们 有 线性 和 非 线性 通 近 函数 的 选择 ， 这 反 过 来 也 决定 了 问题 2 的 党 
案 。 下 面 首 先 考虑 线性 方法 ， 然 后 讨论 非 线性 方法 。 
逼近 动态 规划 的 线性 方法 

在 这 -- 方 法 中 ， 通 常 的 做 法 是 将 逼近 函数 J(i,w) 表 示 为 参数 向 量 w 的 线性 函数 ， 即 

JG,w) = ee 二 中 Ww 对 于 所 有 的 i (12:59) 
其 中 @, EMANE RRO IE. HBT R A E A 2. 59) 的 逼近 在 图 12.8 中 
wH. 
PK Hw i) w 
IG) | 权 值 向 量 ra 
图 12.8 JENE ay AS BL AREA IK O i PY i Je 


18 UE oN AS PL ER ETI MP aS : 
Ci) 从 数学 上 线性 函数 逼近 器 是 容易 形成 和 分 析 的 ; Ar. EE ARAI A ETT A tk — 


容易 理解 的 。 
(ji) 通常 ， 线 性 逼近 器 的 数学 形式 提供 了 对 实际 操作 中 可 能 发 生 错 误 的 观察 ， 因 而 使 其 
易于 修正 可 能 发 生 的 错误 。 


(ji) EEX cost-to-go 了 梢 数 中 的 非 线性 性 可 以 通过 特别 选择 的 基 郴 数 来 逼近 地 获得 ， 这 
些 基 函数 能 通过 手头 的 动态 规划 问题 的 直 沉 来 构造 。 

(iv) 尤其 是 ， 线 性 规划 是 相对 容易 执行 的 。 

对 于 点 ( 首 )， 必 须 注 意 的 是 好 的 基 吗 数 的 选择 可 能 在 实际 中 是 很 困难 的 。 

式 (12. 59) 的 选择 为 线性 方法 的 问题 1 提供 了 答案 。 作 为 问题 2 的 回答 ， 通常 被 用 于 为 
Bellman 方程 的 最 优 性 提供 最 佳 匹配 的 是 最 小 二 乘法 ， 这 在 第 2 章 讨论 过 。 在 第 12. 10 市 ， 我 
们 将 描述 实现 这 一 问题 的 一 个 途径 
允 近 动态 规划 的 非 线 尾 方 法 

除了 其 上 述 吸 引 点 外 ， 逼 近 动 态 规划 的 线性 方法 被 认为 是 一 种 实现 更 高 目标 的 有 用 的 路 脚 
石 法 (stepping-stone)，、 通 过 下 面 考 虑 的 一 般 情形 来 考虑 : 

认识 到 在 实际 中 通 到 的 多 ees 线性 的 ， 逼 近 动 态 规 划 将 不 仅 其 自身 是 非 
线性 的 ， 也 需要 以 “任意 期 望 精 确 度 ”来 通 近 “任意 ” 非 线 性 动态 环境 。 


换 句 话说 ， 这 里 提倡 的 作为 问题 1 的 回答 的 非 线 性 方法 是 一 个 通用 逼近 器 Cuniversal ap- 
proximator) fA) i Vt Pa 
从 前 面 的 关于 多 层 感 知 器 和 径 向 基 函 数 (RBF) 的 讨论 我 们 知道 这 些 网 络 都 是 通用 逼近 
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ar. IMA. 15 章 将 要 讨论 的 循环 多 层 感知 髓 也 是 通用 逼近 器 。 给 定 这 样 的 网 络 的 广泛 选择 ， 
jaan FE he HET N 

i 不 同 于 具有 单个 非 线性 隐藏 层 和 线性 输出 层 的 浅 结构 (shallow architecture) (以 RBF 
网 络 为 例 )， 循 环 多 层 感 知 屁 可 以 被 设计 为 具有 两 个 或 更 多 个 隐藏 屋 。 通 过 一 层 馈 给 其 他 层 ， 
循环 多 层 感 知 占 具有 “从 特征 学 习 特征 ”的 性 质 ， 由 是 底层 特征 被 累进 地 组 合 到 更 抽象 和 更 高 
层 的 表达 中 。 在 Bengio and LeCun (2007) 中 ， 提 出 深度 结构 (deep architecture) 具有 以 非 
局 部 方式 〈 即 在 中 间 邻 居 之 外 ) 谤 化 的 潜力 ， 这 样 的 性 质 在 应 用 于 高 度 复杂 任务 的 机 器 学 习 算 
法 设计 的 进展 中 具有 决定 性 意义 。 

2. 循环 多 层 感 知 器 具有 内 在 多 种 方式 的 全 局 反馈 〈 即 包括 两 个 或 多 个 网 络 层 ) 。 这 里 ， 我 
们 需要 提醒 自己 大 脑 系统 具有 内 在 的 丰富 的 全 局 反馈 。 特 别 地 ， 在 大 脑 中 的 不 同 区 域 几 乎 总 是 
存在 反馈 连接 ， 这 些 连 接 至 少 和 前 馈 连 接 一 样 多 (Churchland and Sejnowski, 1992), fla, 
从 主 视觉 皮层 回 到 外 侧 膝 状 核 (LGN) 的 循环 投影 是 从 LGN 到 主 视觉 皮层 的 前 向 投影 的 大 约 
10 倍 ; 。 因 此 视觉 系统 具有 强大 能 力 是 不 奇怪 的 ， 而 大 脑 的 马达 控制 、 听 党 以 及 其 他 部 分 都 是 
如 此 。 鉴 于 我 们 所 知道 的 关于 大 脑 系 统 的 知识 ， 我 们 可 以 肯定 全 局 反馈 是 计算 智能 的 服务 
商 一 一 循环 神经 网 络 作 为 逼近 动态 规划 系统 模拟 的 候选 神经 网 络 具 有 实际 重要 性 。 

比较 循环 多 层 感 知 器 和 通常 的 多 层 感 知 器 ， 我 们 发 现在 考虑 结构 深度 的 范围 内 它们 共享 第 
1 点 。 然 而， 全 局 反馈 的 性 质 2 使 得 循环 多 层 感知 器 要 好 于 通常 的 多 层 感 知 屁 ， 问题 在 于 如 何 
以 最 有 效 的 方式 构造 网 络 的 前 馈 和 反馈 连接 。 

现在 我 们 已 经 回 符 了 通 近 动态 规划 非 线 性 方法 的 问题 1， 下 面 我 们 处 理 问 题 2， 是 关于 如 


何 自 适应 逼近 函数 J(i,w) 中 的 权 值 向 量 w 来 为 Bellman 方程 的 最 优 性 提供 最 优 匹配 。 现 在 能 
够 做 如 下 陈述 : 
循环 多 层 感知 器 的 监督 训练 能 通过 利用 无 导数 的 非 线 性 序列 状态 估计 算法 来 最 有 效 地 
通过 采用 这 样 的 监督 学 习 方 法 ， 我 们 不 再 需要 考虑 决策 系统 的 非 线 性 是 如 何 发 生 的 。 因 
而 ， 在 这 种 情况 下 ， 将 在 14 章 讨 论 的 无 导数 非 线性 序列 状态 估计 算法 ， 变 得 尤其 重要 。 序 列 
状态 估计 算法 用 于 循环 多 层 感 知 器 (或 者 对 这 一 问题 的 普通 多 层 感知 器 ) 的 监督 训练 将 在 第 
15 章 中 讨论 。 


12.10 最 小 二 乘 策 略 评估 


作为 通 近 动态 规划 的 第 一 个 菲 直 接 法 ， 我 们 讨论 一 个 称 为 最 小 二 乘 策略 评估 (least-squares 
policy evaluation) 的 算法 ， 或 者 简 记 为 LSPEGQ) 算 法 。 在 LSPEQ) 中 和 扮演 着 和 TDGQ) 中 的 A 相 
似 的 角色 。 

LSPE(A) 背 后 的 基本 思想 可 以 总 绪 为 : 

在 由 一 组 基 函 数 张 成 的 低 维 子 空间 中 完成 值 选 代 。 


具体 来 说 ， 令 * 记 表示 状态 ; 的 特征 向 量 O HAR. RNTUEXNXs ae 
bI 


T 
o = 出 (12. 60) 


oi 
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令 T 记 对 于 策略 六 代价 丁 作为 唯一 固定 点 的 映射 ， 且 令 开 记 由 和 矩阵 积 D, 定义 的 子 空间 上 的 投 
影 〈 以 合适 的 形式 )， 其 中 w 是 具有 维 数 s 的 参数 向 量 。 以 模拟 作为 LSPE(4) 算 法 的 基础 ， 我 
们 可 以 给 出 如 下 的 分 析 性 描述 (Bertsekas, 2007): 
Ow... = 7 (@w,) + HWE) (12. 61) 

Pe A PE RR n FC ERR EY 0。 
背景 和 假设 

考虑 一 个 国定 状态 马尔 可 夫 链 ， 其 状态 记 为 ;一 1,2,…，N， 由 稳定 策略 yy 控制。 我们 可 将 
式 (12. 5) 重 写成 这 样 的 形式 : 


JG) = E| Dy yg Cin rinn) = i| 
其 中 ;是 时 间 时 的 第 i PRA. y ERMAT, gG oi D EARD i Bi OBR. A 
着 线性 结构 的 思想 ， 代 价 IG) oP ee: 
JTO jw) = Tw (12. 62) 
特征 向 量 DORAN s 维 的 ， 则 权 值 向 量 w 也 必然 具有 相同 的 维 数 。 感 兴趣 的 问题 是 在 如 下 
子 空间 中 逼近 参数 化 代价 JG, w: 


= {@w|wec R`} (12. 63) 
__.23 fi] ey FRE ® 的 列 张 成 的 。 注 意 和 矩阵 积 @w 的 维 数 等 于 可 能 的 状态 数 NN。 
e 
马尔 可 夫 链 具有 正 的 稳定 状态 概率 ; 即 
im LN Pa = jlio =D =m > 0 对 于 所 有 的 i (12. 64) 


一 假设 的 意义 是 马尔 可 夫 链 具有 单一 循环 类 而 没有 瞬 变 状态 。 
2. SE p 的 秩 是 ;。 
第 二 个 假设 的 含义 是 特征 矩阵 D 的 列 以 及 因此 通过 Ow FJR A AE A ERE Z A 


ERTE A Bes PE ER 
HERR a, FRAT AD DAR 12. 20) 和 式 (12. 2D KS 
TID = DippeG p+ G@), t= 1,2 N (12. 65) 
其 中 T 记 一 个 映射 。 现 在 ， 令 
DP ig 153) 
X pyg j) 
es | (12. 66) 
Dpwg Nj) 
Pu Pr Pin 
pa a a (12. 67) 
Pm Pre PNN 


以 及 
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(N) 
a Dw (12. 68) 
其 中 利用 了 式 (12.62) 的 逼近 公式 。 我 们 就 可 以 用 向 量 eg. J 和 随机 和 矩阵 P 重 写 式 (12. 65) 为 紧 
EER 





TJ=g+yPJ (12. 69) 
Be MIXTE E A E EJE AR 
J J, 
它 被 限制 在 子 空间 中 且 包 含 了 值 迭 代 到 的 投影 。 具 体 地 讲 ， 根 据 式 (12. 68)， 可 以 写 
Bw = I7(@w,), n= 0,1,2, (12. 70) 


其 中 ， 如 前 所 述 ， 匡 记 到 子 空间 8 上 的 投影 。 式 (12. 70) 被 称 为 授 影 值 移 代 (PVD 方法 ， 其 本 
质 可 以 陈述 如 下 : 







值 选 代 
LRG n, AER Ow, 被 施 以 映射 了 且 新 的 向 T (Ow,) =B+7P Ow, 
ST (Ow, ) 被 投影 到 子 空间 外 上 ， 从 而 产生 更 新 的 先 ; 到 的 投影 
代 中 w, | 。 ) 


图 12.9 图 示 了 PVI 方 法 。 
PVI 方 法 可 以 被 看 成 是 解 Bellman FEWER 


法 的 投影 或 者 逼近 形式 。 在 Bertsekas (2007) 中 描述 子 空间 9 
了 如 下 的 发 现 : 图 12.9 HEAR (PVD 方法 的 图 示 


1. 映射 和 可 了 是 对 加 权 欧 几 里 得 范 数 上 :| 的 模 数 的 收缩 (contraction)， 其 中 ma, re mn 
(表示 马尔 可 夫 链 的 稳定 状态 概率 ) 扮演 着 定义 欧 几 里 得 范 数 时 的 伸缩 因子 的 角色 。 

2. CAR ow 是 权 值 向 量 w 的 映射 7 了 的 唯一 固定 点 。 (在 当前 讨论 的 背景 中 ， 当 我 们 
说 固定 点 上 时， 我 们 的 意思 是 一 个 解 ， 即 向 量 w MEAT w =w.) 

因此 可 以 说 PVI 方 法 是 逼近 Bellman 方程 的 分 析 方 法 。 

然而 ， 除 了 好 的 点 之 外 ，PVI 方法 有 两 个 严重 的 缺陷 : 

1. 如 果 ow BAAN, BRAT (Ow, ) E— A N 维 回 量 ， 因 此 ， 对 于 N 很 大 时 的 大 
规模 应 用 而 言 ， 方 法 的 计算 复杂 上 度 变 得 不 可 控制 。 

2. 向 量 T(@w,) 到 子 空间 9 的 投影 需要 稳定 状态 概率 ze,xz ，,… ,rw 的 知识 。 通 常 ， 这 些 概率 
是 未 知 的 。 

幸运 的 是 ， 这 两 个 缺点 可 以 通过 利用 Monte Carlo 模拟 法 来 减轻 。 
从 投影 值 和 迭代 到 最 小 二 乘 策略 评估 

对 投影 全 利用 最 小 二 乘 最 小 化 ， 可 以 将 式 (12. 70) 表 示 为 下 面 的 形式 : 


w = arg min || ®w — 7 (®w,) ||} (12.71) 
等 价 地 ， 可 以 将 PVI 算法 的 最 小 二 乘 方案 表示 为 如 下 形式 : 
Wil ~ arg min >) ri( 中 CD)w 一 ( Spg Gj) F 7 PT (j)w, ) ) (12. 72) 


为 了 从 实际 上 完成 式 (12. 72) 的 最 优化 ， 我 们 提出 通过 利用 Monte Carlo 模拟 法 来 逼近 ， 对 状态 i 
生成 无 限 长 的 轨迹 (i ,i ,is,…)， 并 根据 下 述 公式 在 每 次 迭代 (i, ,i+1)〉 后 更 新 权 值 向 量 w, : 
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W = arg min >) C(O? Ci,w— glir siea) — y OT Cig. w, (12. 73) 
Y k=l 


FA FHERR, ARA RD R RTF 
估 ， 或 者 简写 为 LSPE。 如 图 12.10 所 示 ，LSPE 
可 以 看 成 是 带 有 说 明 最 小 二 乘 副 近 的 加 性 模拟 嗓 
声 的 PVI 

而 且 ， 由 于 联合 映射 各 工 的 收缩 性 质 和 模拟 
噪声 的 渐进 减少 特性 ，LSPE 收敛 到 PVI 的 相同 





(IK FE 
| 7 (@w,) <2+yPOw, 


ARR, Bl. fa AL BUF ae A OE 9 HE — A {EL I] 子 空间 
Ew: 图 12. 10 EBB PVD 随机 方案 的 

Dw 一 II7CGBw”- ) (12. 74) 最 小 二 乘 策略 评估 (LSPE) 的 图 示 
LSPE(A) 

以 与 第 12.7 节 中 介绍 TOA WAU. RAMSAR Ba (参看 式 (12. 34) ) : 
dd, Ct, tea) = gt, gy ) + ¥ O! Cini DW, — ob (i, ) w, C12. 75) 
相应 地 ， 可 以 表示 基于 模拟 的 LSPE(4) 算 法 如 下 ， 
n j 
W= — arg min >) (67, )w— OT" Ci)w, 5 (YA) dd, (i lint t > (12. 76) 


其 中 (zw) 是 由 Monte Carlo 模 拟 法 生成 的 无 限 长 轨迹 。 用 语言 表述 : 


在 LSPE(X) 算 法 的 第 nn 十 1 次 选 代 ， 更 新 权 值 向 量 w+ri 作 为 权 值 向 量 WwW 的 特殊 值 来 计算 ， 
它 最 小 化 下 列 两 个 量 之 间 的 最 小 二 乘 差 : 

。 和 逼近 代价 函数 J (ii) 的 内 积 中 ' (i w; 

。 时 序 差 分 的 对 应 部 分 


OT (i, w， =F > (Ad Cin sine) 

这 是 对 有 一 0,1,…,7 由 单个 模拟 轨迹 中 提取 得 到 的 。 

注意 权 值 向 量 Ww, 的 当前 值 在 完成 式 (12.76) 的 最 小 二 乘 最 小 化 的 每 次 迭代 时 保持 为 常数 ，。 

ILSPE() 的 逼近 性 质 归 于 两 个 因子 : 

L 估计 稳定 状态 概率 n 和 转移 概率 p; 时 ,使 用 基于 模拟 的 实验 频率 。 

2. 为 逼近 PVI 方 法 在 式 (12. 76) 中 利用 时 序 差 分 的 有 限 折扣 和 。 

无 论 如 何 ， 随 着 迭代 数 款 趋 于 无 穷 ， 实 验 频 率 收 敏 于 真实 概率 且 有 限 折 扣 和 收敛 到 无 限 折 
扣 。 所 以 ，LSPE(4A) 算 法 以 渐进 的 意义 收敛 到 其 PVI 部 分 。 

下 面 关 于 LSPE(X) 算 法 的 收敛 行为 的 具 润 察 力 的 备注 是 尤其 值得 注意 的 : 

LEPSCL) 算 法 由 快速 收 伍 的 确定 性 分 量 和 慢 慢 收敛 到 0 的 随机 分 量 组 成 ， 在 算法 的 早期 选 
代 阶 段 确 定性 分 量 支 配 了 随机 波动 。 

这 一 陈述 是 通过 Bertsekas 等 (2004) 的 计算 机 模拟 证 实 的 。 特 别 地 ， 那 里 所 示 的 结果 说 
BA LSPE() 算 法 对 O<AX1 是 真正 可 靠 的 算法 ， 它 收敛 快 ， 性 能 可 靠 。 一 般 来 说 ， 选 择 靠近 1 
的 1 提高 计算 精确 度 〈 即 ， 使 得 矩阵 积 r (Ow 靠近 JD), (AS RRR eg, Ai 
需要 更 多 的 样本 和 更 长 的 轨迹 来 达到 收 全。 


12.11 BARRAR 
LSPE 算法 为 逼近 动态 规划 提供 了 有 力 的 线性 方式 。 在 本 节 中 ,我们 描述 利用 神经 网 络 作 
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为 通 近 动态 规划 非 线 性 方法 的 工具 。 为 此 ， 假 设 有 一 个 动态 规划 问题 ， 它 的 可 能 状态 数目 和 人 允 
许 的 行动 数目 非常 大 ， 使 得 利用 传统 处 理 方法 是 不 现实 的 。 假 如 我 们 有 该 系统 的 模型 ， 即 转移 


| OMG, ay w) 







概率 p, (a) 和 观察 代价 (i,a, 站 都 是 已 知 的 。 为 了 处 BE 
理 这 种 情况 ， 我 们 基于 下 面 所 述 的 Monte Carlo 模拟 和 The) 





最 小 二 乘法 提出 使 用 策略 迭代 的 近似 。 

图 12. 11 给 出 遇 近 策略 迭代 算法 的 简化 框图 。 在 ”| 用 于 逼近 策略 
图 12. 3 中 的 策略 评估 步骤 由 它 的 一 个 逼近 所 替代 。 因 
JE E AE R A E AR E A E E EITAN F AE E R R PEA 
又 和 策略 改进 步骤 ; 

1. 逼近 策略 评估 步骤 。 给 定 当 前 策略 w， 对 所 有 ”转移 概率 
状态 i 的 实际 cost-to-go BRM JOHR EE, E 图 12.11 逼近 策略 迭代 算法 框图 
cost-to-go 函数 J*(i,w)。 向 量 w 是 完成 逼近 的 神经 网 络 参数 。 

2. 策略 改进 步骤 。 利 用 逼近 cost-to-go 函数 J*(i,w) 产 生 改 进 的 策略 yx。 对 所 有 i， 新 策略 
设计 对 J*(i,w) 是 贪心 的 。 

为 了 区 近 策 略 迭 代 算 法 产生 满意 解 ， 仔 细 挑 选 策 略 初始 化 算法 非常 重要 。 这 可 利用 启发 式 
思想 完成 。 或 者 可 以 从 某 个 权 值 向 量 w 开始 ， 用 它 导出 一 个 贪心 策略 ， 接 着 利用 该 策略 为 初始 
策略 。 

假设 除 知道 转移 概率 和 观察 代价 之 外 ， 我 们 有 如 下 几 项 : 

。 一 个 稳定 的 策略 u 作为 初始 策略 。 

。 一 个 状态 集 吧 代表 运行 环境 。 

。 对 于 每 个 ICR, cost-to-go BM IO HW M(i) 个 样本 组 成 的 集合 ; 一 个 这 样 的 样本 记 

A klim), P 区 二 1,2,*…,M(1)。 
神经 网 络 的 参数 向 量 w 利用 最 小 二 乘法 决定 ， 即 最 小 化 代价 函数 : 


Mii) 


swm = >) >) (RG,m) — J Gw (12.77) 
1€# m=! 





在 确定 最 优 权 值 向 量 w NA costrto-go 函数 普 (iw) 之 后 ， 下 面 确定 逼近 Q -因子 。 为 
此 ， 我 们 利用 式 (12. 20) 和 式 (12. 23) Rie Q-AT: 
Qisaw) = >) p; (a) (gGi,a,j) + J * Gow) (12. 78) 


其 中 pj (a) 为 在 行动 a( 已 知 ) 下 从 状态 到 状态 7 的 转移 概率 ，g(i,a,7) 是 观察 代价 〈 也 为 已 
知 ) ， 而 y 是 规定 的 折扣 因子 。 根 据 下 列 公 式 ， 通 过 使 
用 这 些 和 逼近 Q -因子 确定 一 种 改进 策略 以 完成 欠 代 CS 
看 (12. 28)): 

u(i) = arg min Q Cisa, w) (12.79) 


注意 ， 式 (12.76) 和 式 (12.77) 仅 被 模拟 器 用 在 由 模拟 实 
际 访问 的 状态 而 不 是 在 所 有 状态 产生 行动 。 正 因为 如 OT 
此 ， 这 两 个 公式 没有 受到 维 数 灾 的 影响 。 IG, w) 
图 12. 12 给 出 一 个 逼近 策略 迭代 算法 的 更 加 详细 的 
框图 。 这 个 框图 由 四 个 互 连 的 模块 组 成 〈Bertsekas and 
Tsitsiklis, 1996), 
1. 模拟 器 ， 它 利用 给 定 的 对 状态 转移 概率 和 观察 到 的 一 步 代 价 构建 环境 的 一 个 蔡 代 模型 。 





图 12. 12 ”逼近 策略 选 代 算法 详细 设计 
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模拟 器 产生 两 类 东西 : Ca) 模拟 环境 的 行动 进行 响应 的 状态 ，(b) 对 给 定 策 略 / 的 cost-to-go 
PRL THF o 

2. 行动 发 生 器 ， 它 根据 式 (12.77) 产 生 一 个 改进 策略 〈 即 一 系列 行动 )。 

3. cost-to-go 有 逼近 器 ， 它 对 状态 ;和 参数 向 量 w 产生 在 式 (12.76) 和 式 (12.77) 中 使 用 的 各 
近 cost-to-go PR J“G,w), 

4. 最 小 二 乘 求 解 器 ， 它 利用 由 模拟 器 对 策略 y 和 状态 i 提供 的 cost-to-go BR J" (2) AA 
本 ， 计 算 使 式 (12. 75) 的 代价 函数 最 小 化 的 参数 向 量 w。 只 有 充分 评估 一 个 策略 和 确定 一 个 最 
优 参 数 向 量 wt 之 后 ， 才 能 启动 从 最 小 二 乘 求解 器 到 cost-to-go WITH ME. WN, h J*(i， 
w* ) 赫 代 cost-to-go 通 近 J*(Gi,w). 

表 12.3 BH WU RRERRENDS o 


表 12.3 逼近 策略 迁 代 算法 


已 知 参 数 : 转移 概率 p; (a) 和 代价 函数 g(i,a,7)。 

计算 : 

1. 选择 一 个 稳定 策略 u 作为 初始 策略 。 

2。 使 用 由 模拟 器 产生 的 cost-to-go 函数 J 的 样本 集 Ck Gis) jj ， 确 定神 经 网 络 用 作 最 小 二 乘 求解 器 的 参数 向 量 w. 


Min 
w* = min €(w) = min >) >) Rlism) — JG, w))? 
w W igžm=l 


3. 根据 第 ERR w* ， 对 访问 的 状态 计算 通 近 cost-to-go BM J*(i,w* )。 确 定 通 近 Q -因子 ， 
Qisaswt) = >) py (a) Clia j) Hy] Gw" )) 
jE" 
4. 确定 改进 策略 


Ai = arg min Q(i,a,w* ) 
aE, 
5. 重复 第 2 步 至 第 4 步 。 
注 : 第 3 步 和 第 4 步 仅 在 实际 访问 的 状态 而 不 是 所 有 状态 上 应 用 。 


很 自然 ， 这 个 算法 的 运行 会 有 误差 ， 产 生 误差 是 由 于 模拟 器 和 最 小 二 乘 求 解 器 的 设计 有 不 
可 避免 的 缺点 。 对 期 望 的 cost-to-go 函数 进行 最 小 二 乘 通 近 的 神经 网 络 可 能 缺乏 适当 的 计算 能 
力 ， 因 而 成 为 第 一 个 误差 源 。 神 经 网 络 和 逼近 器 的 最 优化 和 由 此 而 来 的 参数 向 量 w 的 调整 是 基于 
模拟 器 提供 的 期 望 反应 ， 因 此 成 为 第 二 个 误差 源 。 假 设 所 有 的 策略 评估 和 策略 改进 是 分 别 在 e 
和 5 一 定 的 误差 容许 限度 内 完成 的 ，Bertsekas and Tsitsiklis (1996) He AA ERA 
所 产生 的 策略 和 最 优 策略 的 性 能 之 间 差 异 的 因子 随 * 和 5 降低 而 趋 于 零 。 换 句 话说， 逼近 策略 
算法 具有 最 小 性 能 〈 差 异 ) 的 可 靠 保 证 。 根 据 Bertsekas and Tsitsiklis (1996), 逼近 策略 迭代 
算法 初始 阶段 能 够 取得 迅速 而 且 十 分 单调 的 进展 ， 但 在 极限 情况 下 一 个 随机 性 的 持续 的 策略 振 
功 可 能 发 生 。 这 种 振 葛 行为 出 现在 逼近 cost-to-go 函数 J BAR HMA J’ 的 区 域 OC(C(6 十 2Ye)/(1 
一 y)2) 内 之 后 ， 其 中 y 为 折扣 参数 。 对 所 有 逼近 策略 迭代 的 变 体 ， 它 们 都 明显 地 有 导致 振荡 行 
为 的 根本 结构 。 


12.12 ”小 结 和 讨论 


本 章 前 面部 分 介绍 了 用 于 多 阶段 决策 动态 规划 的 Bellman 理论 的 详细 讨论 。 作 为 建立 在 马 
尔 可 夫 决 策 过 程 上 的 稳定 策略 ， 这 一 理论 依赖 于 环境 显 式 模 型 的 有 效 性 ， 该 模型 包含 了 转移 概 
紊 各 相连 代价 。 我 们 还 讨论 了 用 于 求解 Bellman Fy FER OL TE HN R ER AHE E RX I A TA o 
逼近 动态 规划 : 直接 方法 

动态 规划 是 强化 学 习 的 核心 。 本 章 中 通过 利用 动态 规划 来 推导 两 个 在 强化 学 习 文 献 中 三 为 
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人 知 的 无 模型 的 在 线 学 习 算 法 : 

© 时 序 差分 (TD) 学习 ， 由 Sutton (1988) 提出 。 

© 人 QQ- 学 习 ， 由 Watkins (1989) 提出 。 

由 于 是 无 模型 的 ， 这 两 个 算法 都 避免 了 转移 概率 的 需要 。 然而 ， 存 储 的 局 限 限 制 了 它们 在 
决策 问题 上 的 实际 使 用 ， 只 能 用 于 中 等 大 小 的 状态 空间 。 | 
通 近 动态 规划 : 非 直 接 方法 

在 本 章 的 后 面部 分 ， 我 们 讨论 了 有 实际 重要 性 的 问题 : 称 为 维 数 灾难 的 问题 。 在 解决 大 规 
模 决 策 问 题 时 遇 到 的 这 一 问题 使 得 Bellman ALM RF. AST EAR AME, FETT AT 
诉 诸 非 直接 逼近 动态 规划 ， 它 建立 在 Bellman 理论 基础 上 上 。 非 直接 逼近 动态 规划 可 以 通过 如 下 
两 种 途径 中 的 一 个 来 执行 : 

1. 线性 构造 方法 ， 包 括 两 个 步骤 : 

。 状态 i 的 特征 提取 

。 代价 Ji,w) 的 最 小 二 乘 最 小 化 ， 其 中 w 是 和 状态 i 相连 的 权 值 向 量 

我 们 通过 推导 最 小 二 乘 策略 评估 (LSPE) 算法 说 明了 这 一 方法 的 应 用 。 

2. 非 线 性 构造 方法 ， 这 一 方法 的 提出 依赖 于 通用 逼近 器 的 使 用 ， 它 能 以 期 望 的 任意 精确 
度 逼 近 任 意 非 线性 函数 。 神 经 网 络 可 以 作为 通用 有 逼近 器 来 使 用 。 

除了 在 逼近 动态 规划 上 的 显著 进展 外 *， 在 建立 能 够 对 大 规模 应 用 做 高 层 决 寅 的 系统 方面 
也 有 很 多 需要 做 的 工作 ， 这 一 系统 是 可 靠 的 并 且 计 算 易 处 理 的。 在 这 一 背景 下 ， 也 许 局 部 可 观 
测 性 问题 成 为 影响 动态 规划 的 所 有 实际 问题 的 最 大 挑战 。 

部 分 可 观测 性 | 

Bellman 动态 规划 理论 假设 了 完全 可 观测 系统 〈fully observable system)。 更 精确 地 说 ， 
为 了 最 优 策略 解 动态 规划 问题 ， 假 设 环境 状态 服从 马尔 可 夫 性 质 ， 在 时 间 ”十 1 的 状态 仅 依赖 
于 时 间 n 的 状态 和 策略 ， 因 而 独立 于 时 间 nn 之 前 发 生 的 所 有 一 切 。 在 实际 中 因为 不 可 观测 状态 
的 发 生 是 不 可 避免 的 ， 所 以 经 常 违背 这 一 严格 的 假设 。 于 是 ， 作 为 基于 马尔 可 夫 决 策 过 程 
(MDP) 的 模型 (Bellman 动态 规划 理论 的 基石 ) 的 替代 ， 如 果 我 们 要 使 台 近 动态 规划 理论 更 
接近 实际 现实 ， 不 得 不 处 理 部 分 可 观测 马尔 可 夫 决 策 过 程 (POMDP)。 某 种 意义 上 ， 部 分 可 观 
测 性 可 看 成 是 第 二 个 动态 规划 “ 灾 ”， 称 为 “模型 灾 ”， 意 味 着 可 观测 值 包含 了 关于 环境 图 有 动 
态 性 的 不 完全 信息 。 我 们 因而 可 以 将 动态 规划 描述 为 “遭受 着 模型 灾 和 维 数 灾 的 全 局 最 优化 方 
J 

多 年 以 来 ，POMDP 问题 在 各 种 文献 中 被 认为 是 严重 的 问题 ， 在 包含 不 确定 下 的 规划 
(planning under uncertainty) 的 应 用 中 〈 如 机 器 人 ) 设置 了 主要 障碍 。 这 一 问题 是 困难 的 ， 因 
为 需要 学 习 行 动 选择 策略 ， 而 行动 选择 可 以 是 所 有 可 能 不 确定 类 型 中 的 偶然 事件 。 注 释 和 参考 
文献 的 注 记 10 中 ， 试 图 给 出 文献 中 如 何 处 理 POMDP 问题 的 研究 方 四 。 
动态 规划 和 Viterbi 算法 之 间 的 关系 

这 一 章 主 要 是 讲述 动态 规划 。 但 是 如 果 不 讨 论 它 和 Viterbi 算法 的 关系 ， 动态 规划 的 学 习 
就 是 不 完整 的 ，Viterbi 算法 的 命名 是 因为 其 提出 者 Viterbi (1968), 实际 上 ，Bellman 动态 规 
Rj (Bellman, 1957; Bellman and Dreyfus, 1962) 比 Viterbi 的 论文 早 好 多 年 。 这 两 个 算法 的 
等 价 性 在 Omura (1969) 中 可 以 找到 。 

在 最 优化 的 音 景 下 ， 动 态 规划 试图 寻找 通过 加 权 图 的 最 短路 径 〈 如 图 12.5 eS i 
题 图 )， 是 通过 从 目的 地 开始 一 阶段 一 阶段 回 到 起 始点 的 方式 来 实现 的 。 男 一 方面 ， 在 卷 积 解 
码 的 背景 下 ，Viterbi 算法 在 权 值 图 自身 上 工作 ， 称 为 格子 图 (trellis diagram) 。 这 个 图 表达 了 
卷 积 编码 器 的 图 形 描述 ， 可 看 成 有 限 状 态 机 器 (Lin and Costello，2004)。 在 最 大 似 然 意义 下 
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Viterbi 算法 对 于 卷 积 编码 的 最 优 性 在 Forney (1973) 中 认识 到 ， 
注释 和 参考 文献 


l. 


强化 学 习 的 传统 处 理 方 法 植 根 于 心理 学 ， 可 追溯 到 Thorndike (1911) 关于 动物 学 习 时 期 的 工作 和 Pavlov 
(1927) 关于 条 件 反射 的 研究 。 Widrow 等 (1973) 的 工作 也 对 传统 强化 学 习 方法 做 出 了 贡献 ; 在 那 篇 文章 
中 ， 引 和 人 了 评价 《critic) 的 概念 。Hampson (1990) 一 书 讨 论 了 传统 的 强化 学 习 。 

对 现代 强化 学 习 的 主要 贡献 包括 Samuel (1959) 有 关 他 的 著名 的 棋子 游戏 程序 的 工作 ，Barto 等 
(1983) 关于 自 适 应 评价 系统 的 工作 ，Sutton (1988) 关于 上 时序 差分 〈ftemporal difference) FE HY FF A 
Watkins (1989) 关于 Q -学 习 的 工作 。 在 Sutton and Barto (1998) 的 书 中 给 出 了 强化 学 习 的 细节 。 

在 神经 生物 学 背景 下 ， 报 酬 信 和 号 由 称 为 多 巴 胺 神经 元 的 中 脑 神经 元 处 理 。 为 了 详细 地 说 明 ， 在 Schultz 
(1998) 中 报告 了 一 系列 实验 操作 性 条 件 反射 被 用 于 训练 猴子 对 刺激 (如 ， 光 和 声音 ) 的 反应 。 为 了 得 到 以 
食物 或 饮料 形式 的 报酬 ， 猴 子 必须 释放 一 个 键 ， 然 后 按 另 一 个 键 。 多 巴 脓 的 活动 性 结果 在 每 次 试验 的 20 次 
实现 下 平均 。Schultz 获得 的 结果 揭示 多 巴 胺 神经 元 确实 在 和 刺激 发 生 和 报酬 交付 后 激发 。 有 了 Schultz 的 值 
得 关注 的 发 现 ， 我 们 如 何 对 其 建 模 ?” 将 多 巴 胺 神经 元 看 成 A ae 可 以 考虑 将 和 多巴胺 神经 元 
产生 的 响应 作为 Pavlovian 条 件 反 射 和 TD -学 习 的 教师 信号 (Schultz，2007; Iszhikevich, 2007b); 然而 需 
要 注意 的 是 TD -学 习 的 有 关 形 式 是 TOO) mA TDO), 这 两 者 都 在 12.7 节 中 讨论 过 了 。 

作为 最 后 的 备注 ; 在 强化 学 习 文 献 中 考虑 TD - FW RMERmALH. AR, SMR A BIA 
样 算法 时 ，cosrto-go 函数 是 最 小 化 的 。 


. 本 书 在 随机 环境 的 一 般 背景 下 讨论 了 动态 规划 。 因 而 重新 给 本 章 取 个 “随机 动态 规划 ”的 题 且 是 有 鹃 引力 


的 。 然 而 ， 没 有 那样 做 ， 因 为 “动态 规划 ”为 工作 于 这 一 领域 的 研究 者 描述 了 合适 的 领域 ， 


. 策略 和 迭 代 和 值 选 代 是 动态 规划 的 两 个 主要 方法 。 另 外 还 在 两 个 值得 注意 的 方法 : 高 斯 - Seidel 方法 和 异步 动 


态 规划 (Barto 等 ，1995; Bertsekas，1995b) 。 在 高 斯 - Seidel 方法 中 ， 串 行 扫描 所 有 状态 ， 每 个 状态 根据 
其 他 状态 的 最 新 代价 进行 竞争 ， 在 一 个 时 刻 只 更 新 一 个 状态 的 cost-to-go AR. 异步 动态 规划 和 高 斯 - sei- 
del 的 区 别 在 于 它 没 有 组 织 成 系统 化 的 依次 扫描 状态 集 。 


，Watkin (1989) 在 他 的 博士 论文 的 第 96 页 ， 对 忆 - 学 习 做 如 下 评论 : 


“附录 1 给 出 这 个 学 习 方 法 对 有 限 马 尔 可 去 决策 过 程 工 作 的 证 明 。 证 明 也 表明 该 学 习 方 法 会 很 快 收 你 到 
最 优 行动 - 值 函数 。 虽 然 这 是 非常 简单 的 思想 ， 但 据 我 所 知 ， 以 前 从 未 被 明显 提出 。 但 是 必须 指出 ， 有 限 马 
尔 可 夫 决 策 过 程 和 随机 动态 规划 用 于 若干 不 同 领 域 已 经 被 广泛 研究 30 SFT, ERB Monte-Carlo 方法 那 
样 以 前 无 人 考虑 过 。” 

在 对 这 些 评论 的 一 个 脚注 中 ，Barto 等 (1995〉 指 出 ,虽然 对 状态 -行动 对 峰值 的 思想 第 Denardo 
(1967) 所 采用 ， 构 成 动态 规划 方法 的 基础 ， 但 他 们 没有 看 见 比 Watkins 的 1989 论文 更 早 的 像 Q@- 学 习 这 样 
用 于 估计 这 些 值 的 算法 。 


. Watkins (1989) 给 出 Q@- 学 习 收 人 敏 定 理 证 明 的 概要 ， 后 来 在 Watkins and Dayan (1992) 中 对 其 进行 了 改 


UE, Tsitsiklis (1994) 给 出 了 Q -学 习 收 敏 的 更 一 般 的 结果 ， 也 可 参考 Bertsekas and Tsitsiklis (1996). 


. 逼近 动态 规划 的 早期 发 展 可 追溯 到 Werbos 在 1977 年 的 论文 ， 其 中 第 一 次 描述 了 避免 维 数 灾 的 启发 式 动 态 


规划 思想 。 根 据 Howard (1960) ， 启 发 式 动态 规划 的 思想 是 逼近 迭代 过 程 的 简单 方法 ， 是 通过 可 调整 权 值 
的 网 络 的 有 监督 训练 来 实现 的 。 

现在 ，“ 通 近 动 态 规划 ”通常 被 用 于 称呼 用 有 逼近 来 克服 Bellman 动态 规划 局 限 的 方法 。Bertsekas 
(2007) 的 书 的 第 二 卷 有 一 章 关 于 通 近 动态 规划 ， 确 定 了 逼近 的 直接 和 非 直 接 方法 。 





.最 小 二 乘 时 序 差 分 (STD) 算法 


根据 Bradtke and Barto (1996) 的 LSTD 算法 ， 为 动态 规划 的 非 直 搂 通 近 提 供 了 另 一 个 线性 结构 方法 。 

LSTD 算法 的 发 展 过 程 如 下 : 

。 其 函数 被 用 于 表达 每 一 个 状态 ，Bellman 方程 首先 被 通过 这 样 的 方式 通 近 : 输入 和 输出 观测 作为 噪声 变 
量 显 示 。 

。 然后 ， 聪 明 地 使 用 第 2 章 讨 论 过 的 “媒介 变量 方法 >”， 使 之 避免 由 “变量 误差 ”问题 引入 的 渐进 俩 置 ; 
这 一 阶段 应 用 最 小 二 乘 方 法 ，。 

。 用 一 种 和 第 5 章 讨论 过 的 递归 最 小 二 乘 (RLO 算法 相似 的 过 程 ， 推 导 LSTD 算法 的 相似 的 递归 执行 

LSTD 算法 的 原始 方案 是 对 4 二 0 来 推导 的 。 建 立 在 Bradtke and Barto 工作 基础 上 ，Boyan (2002) 扩展 
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LSTD 算法 到 ) 人 >0。LSTD 算法 也 在 Lagoudakis and Parr (2003) 中 在 逼近 策略 迭代 的 背景 下 讨论 。 

8. 视觉 皮层 的 反馈 
主 视觉 皮层 (视觉 区 域 1， 通 常 简写 为 V1) 具有 清晰 的 解剖 层 ， 每 一 个 都 有 其 自身 的 特性 函数 。V1 和 更 
细节 分 析 感 知 的 高 阶 视 觉 区 域 相 邻 或 相连 (Kandel 等 ，1991) 。 | 


外 侧 膝 状 核 (LGN) 是 大 脑 中 处 理 视 觉 的 部 分 (Kandel 4%, 1991). 


9. 逼近 动态 规划 的 书 
Bertsekas and Tsitsiklis (1996) 的 经 典 书 《 神 经 动态 规划 》 是 关于 通 近 动态 规划 的 第 一 本 书 。Si (2004) 
的 编辑 版 中 给 出 了 在 学 习 和 有 通 近 动态 规划 CADP), ADP 中 的 技术 进步 及 其 应 用 下 这 一 课题 的 广泛 讨论 。 
10. 部 分 可 观测 性 
在 部 分 可 观测 环境 下 规划 的 问题 是 非常 困难 的 。 下 面 文献 的 简短 列举 试图 为 这 一 高 度 挑 战 性 领域 的 研究 者 
提供 有 趣 的 方 同 : 


(1) 


(2 


nee” 


(3 


w” 


(4) 


>) el 


分 层 方法 “在 部 分 可 观测 环境 下 的 规划 可 以 简化 为 将 一 个 困难 任务 分 解 为 多 层 简单 规划 问题 ， 这 样 
的 技术 可 以 看 成 是 工程 上 广为人知 的 “分 步 解决 ”范例 的 应 用 。Charlin 等 (2007) 研究 了 这 一 问 
题 ， 通 过 将 分 层 策略 的 最 优化 作为 容易 处 理 的 一 般 非 线性 求解 器 的 非 凸 最 优 问题 来 自动 揭示 分 级 
结构 。 

Guestrin and Gordon (2002) 中 描述 了 协作 多 智能 体 动 态 系统 POMDP 的 分 层 分 解 的 另 一 种 方 
法 。 在 规划 和 执行 阶段 ， 计 算 在 智能 体 中 分 布 ， 每 个 智能 体 只 需要 模型 化 和 规划 系统 的 很 小 一 部 分 。 
子 系统 通过 分 级 结 oe 起 ， 这 个 结构 通过 消息 传递 算法 在 智能 体 间 处 理 配 位 和 通信 ; 这 样 就 能 
得 到 全 局 一 致 规划 。 另 一 个 消息 传递 算法 允许 结果 策略 的 执行 。 
POMDP 4832 % AR 的 最 优 策略 可 以 通过 记 为 J(b) 的 cost-to-go 函数 来 表示 。 这 个 函数 将 信 度 
状态 (belief state) b (表示 在 可 能 真 的 但 不 可 观测 的 世界 构 型 上 的 后 验 分 布 ) 映射 到 最 优 策略 能 得 到 
的 总 返回 值 的 估计 ,假设 b 是 正确 的 信 度 状态 。 尽 管 不 可 能 精确 地 计算 cost-to-go 函数 (Sondik, 
1971)， 但 很 多 作者 提出 了 逼近 它 的 算法 。 特 别 地 ， 称 为 基于 点 Cpoint-based) 的 算法 表明 了 潜在 的 
保证 (Smith，2007)。 这 些 算 法 在 信和 度 的 离散 样本 上 估计 J(b) 的 值 和 梯度 ,通过 利用 J(b) 的 凸 性 泛 
化 到 任意 的 信和 度 。 信 度 样本 可 以 通过 模拟 POMDP 得 到 可 达 信 和 度 的 树 来 获得 ， 也 可 以 通过 利用 在 随机 
选取 的 或 在 网 格 上 放 园 的 样本 填充 可 能 信 度 的 单 通道 获得 。 
信和 度 压 缩 ”在 实际 的 POMDP 问题 中 ， 大 多 数 “ 信 上 度 ” 状 态 是 不 太 可 能 的 。 更 重要 的 是 ， 在 高 维 信和 度 
空间 中 包含 着 貌似 走 实 的 信和 度 的 结构 化 低 维 流 形 。Roy and Gordon (2003) 介绍 了 一 个 新 的 称 为 “ 信 
度 压缩 ”的 方法 来 解 大 规模 POMDP 问题 ， 它 利用 了 信和 度 空间 的 稀疏 性 。 特 别 地 ， 信 和 度 空 间 的 维 数 可 
以 通过 利用 指数 族 主 分 量 分 析 (Collins 等 2002) 来 删 减 。( 在 第 10 章 中 讨论 了 可 微 流 形 。) 
自然 策略 梯度 ”在 大 规模 MDP 逼近 规划 直接 策略 梯度 方法 中 ， 动机 是 通过 未 来 返回 值 的 梯度 在 策略 
的 有 限 类 中 找到 好 的 策略 x。Kakade (2002) 讲述 了 基于 参数 空间 固有 结构 表示 最 速 下 降 方向 的 自然 
梯度 方法 。 和 策略 迭代 的 联系 是 通过 证 明 自 然 梯度 朝向 选择 贪心 策略 行动 的 移动 来 建立 的 。 (Amari 
自然 梯度 在 第 10 章 中 讨论 过 了 。) 





Bellman 最 优 准 则 


12.1 


当 折扣 因子 y 接近 于 1 时 ，(12. 22) 中 cost-to-go 函数 的 计算 变 长 WHA? 说 明 你 的 回答 的 理由 。 


12.2 在 本 题 中 我 们 给 出 由 Ross (1983) 得 到 的 关于 Bellman 最 优 性 方程 (12. 22〉 的 为 一 个 证 朋 。 


(a) 令 为 任意 策略 ,假设 在 时 间 步 0 选择 行动 a 的 概率 为 p。，aE 有 A;。 那 么 


N 
PD = Sp. (elisa + D p aW) 
aes. j=l 


其 中 W GRAAE 1 以 前 的 ER eR SCHR, CRITE A 1 RA A AAR 
RS x。 由 此 证 明 


Fa 2 > min( (isa) +79) py ID) 


其 中 
W" > yg? 
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(b) 令 关 是 在 时 间 步 0 选择 行动 wa 的 策略 ， 如 果 下 一 个 状态 为 7， 可 看 作 过 程 以 状态 开始， 遵循 策略 
Tj 使 得 
XG SJG) +e 
其 中 上 是 一 个 很 小 的 正 数 。 由 此 证 明 


MO min 人 (ea ae yy} py DJG) + 


j=l 
(c) 用 (a) A Cb) 导出 的 结果 证 明 式 (12. 22) 。 
12.3 式 (12. 22) 表 示 N 个 方程 的 线性 方程 组 ， 每 个 状态 用 一 个 方程 。 令 
= JE a JEON) 
ey) = Cell, sel2) ,CN ,pT 


paG pe os Pinya 

) Cu) see 
Ply) = Pane He H Pan 
pml) puol) ` BNN (y) 


证 明 式 (12. 22) 可 以 重新 写成 等 价 的 矩阵 形式 : 
A— yP)" = elp) 
其 中 工 为 单位 矩阵 。 讨 论 表 示 六 个 状态 的 cost-to-go R% AY m Bt Je 的 唯一 性 。 
12.4 12.3 节 中 推导 了 用 于 有 限 范围 问题 的 动态 规划 算法 。 在 本 题 中 对 一 个 折扣 问题 重新 推导 这 个 算法 ， 其 
中 cost-to-go PARKA FREN: 


K-1 
J! (Xo) = lim} > rg(X, | 


特 基 地， 证 明 
icin = min EL g( Xe pC Xq) X) + YW ra (XJ 
策略 迭代 
12.5 在 12.4 节 中 我 们 说 cost-to-go eh ACH E 
Jiri) LJD, 对 于 所 有 的 i 
证 明 这 个 论断 。 
12.6 讨论 式 (12. 25) 描 述 的 论断 的 重要 性 。 
12.7 利用 控制 器 评价 系统 〈controllereritic system) ， 说 明 策 略 和 迭代 算法 中 策略 更 新 和 策略 求 值 之 间 的 相互 
作用 。 
AB IK AK, 
12.8 ”一 个 动态 规划 问题 共 涉 及 N 个 允许 状态 M 个 允许 行动 。 假 定 使 用 一 个 稳定 策略 ,证明 值 迭 代 算 法 的 一 
次 迭代 需要 阶 为 N*M 的 操作 。 
12.9 412.2 给 出 依据 对 状态 (CHM costto-go 函数 J* OMEN ARRAKARK AN. KH Q-AF 
Q(i,a) 重 新 构造 这 个 算法 公式 。 
12.10 策略 迭代 总 是 在 有 限 步 后 终止 ， 但 是 值 送 代 可 能 要 无 限 次 迭代 。 讨论 这 两 个 动态 规划 方法 之 间 的 其 他 
差异 。 
时 序 差 分 学 习 
12.11 (a) 构造 在 式 (12. 34) 和 式 (12. 35) 中 描述 的 TD(0) 算 法 的 信号 流 图 表示 。 
(b) TDC0) 算 法 具有 和 第 3 章 描述 的 LMS 算法 相似 的 数学 组 成 。 讨 论 这 两 个 算法 之 闻 的 异同 反 。 
12.12 ”证 明 式 (12. 40) 的 样本 均值 可 以 通过 式 (12. 42) 的 迭代 公式 来 计算 。 
12.13 (a) WHER 1 和 2 是 从 式 (12.45) 和 (12. 46) 而 来 。 
(b) HERO 48) 的 信号 流 图 表示 ， 描 述 TD(4) 算 法 。 
Q -学 习 
12. 14 证 明 
J Gy = min Q(7,a) 
12.15 Q- JAAM RE A EEA. HER I AE EE 
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12.16 构造 由 表 P12. 16 小 结 的 逼近 Q -学 习 算 法 的 信和 号 流 图 。 

12.17 Æ P12. 16 244 ih Q -学 习 算 法 假定 缺乏 状态 转移 概率 的 知识 。 假 定 可 以 用 这 些 概 率 ， 重 构 这 个 

逼近 动态 规划 : 非 直接 方法 

12.18 012.70 ERB IER (PVD 算法 的 最 小 二 乘 方案 。 为 了 实际 执行 这 一 算法 ， 我们 提议 利用 Monte 
Carlo 模拟 法 来 到 近 它 ， 这 里 运用 在 式 (12.71) 中 描述 的 最 小 二 乘 策 略 评估 〈LSPE) 算法 。 
Ca) 通过 设 式 (12.70) 的 代价 函数 的 梯度 为 0， 推 导 w Pe EK. 
Cb) 对 式 (12.71) 同 样 地 做 。 寻 找 状态 i 的 实验 频率 和 转 黎 (i,;)《 即 估计 稳定 状态 概率 n 和 转移 概率 

py) 来 说 明 PVI 和 LSPE 算法 一 致 渐进 。 

12.19 LSPE(CA) 算 法 比 TD(GA) 算 法 具有 更 快 的 收敛 速率 。 证 明 这 一 陈述 。 

12.20 图 P12.20 显示 了 下 近 有 目标 Q -因子 的 基于 神经 网 络 的 方案 ， 目 标 Q@- 因 子 记 为 RQ (i,a,w)， 其 中 1! 
沁 网 络 的 状态 ，a 记 要 采取 的 行动 ，w 记 在 到 近 中 使 用 的 神经 网 络 的 权 值 品 量 。 相 应 地 ， 表 P12. 16 给 
出 了 通 近 Q -学 习 算 法 的 小 结 。 解 释 图 P12. 20 的 通 近 动 态 规划 的 运行 以 证 明 表 P12. 16 中 的 小 结 。 


表 P12.16 逼近 Q -学 习 算 法 小 结 
1. 从 初始 权 值 向 域 wo 开始， 得 到 Q -因子 Qioyaoywo); 权 值 向 其 wo 借助 所 用 的 神经 网 络 完成 晕 近 。 
2. ATIKA n= lzan WOR EJL : 
(a) 对 于 神经 网 络 设 定 的 w， 确 定 最 优 行动 





adn = min Qn linsa, w) 
a€ st; 
fl 


(b) 确定 日 标 Q-W FT 
Cree Ci, „an: W) = glin rn jn) Pymin Qn Gn »o,W) 
EM 


(c) 更 新 Q -NF 
Qn) 1 (ln sn» W) = On sd WY + AQ, Cin ay »w) 
其 中 
AQ Ci ) == Tn Cin san) (QE Gp sans W) SIO Cra »w)) Cisa) F (insan) 
nvins@pn + W ie 其 他 

(O 应 用 Grs aD 和 作为 神经 网 络 的 输入 ， 产 生 输 出 @ Ga. w) 作 为 目标 Q-A F QR Ci an w) 的 通 近 。 轻 征地 改变 权 

值 向 量 使 得 @.Cip asw) 更 靠近 目标 值 QR Gi, sdua w) 
(e) 回 到 步骤 (a)， 重 复 计 算 。 


ti ‘ly. 
Oe Cis as w) 





图 P12. 20 
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Neural Networks and Learning Machines, 3E 
» 一 » 
神经 动力 学 
本 章 组 织 
本 章 研究 递归 神经 网 络 ， 重 点 放 在 用 Lyapunov 直接 方法 来 解决 稳定 性 问题 上 。 
本 章 组 织 如 下 | 

13.1 节 提出 确定 神经 动力 学 系统 的 稳定 性 的 研究 动机 ， 指 出 这 个 问题 的 历史 观点 。 

13.2 节 到 ]3.6 节 提供 背景 材料 。 特 别 地 ，13.2 市 介绍 一 些 动 态 系 统 中 的 基本 概念 ， 随 
后 在 13. 3 节 中 讨论 平衡 点 稳定 性 。13.4 节 中 描绘 在 动态 系统 研究 中 浮现 出 的 各 种 类 型 的 级 
引子 。 在 13.5 节 再 次 讨论 神经 元 的 加 性 模型 。13.6 节 讨 论 作 为 神经 网 络 范例 的 吸引 子 的 
运作 。 

13.7 节 到 13.9 节 是 本 章 的 第 二 部 分 ， 处 理 联想 记忆 。13.7 节 详 细 讨 论 Hopfield 模型 和 
作为 按 内 容 寻 址 记忆 使 用 的 离散 Hopfield 模型 的 细节 问题 。13.8 节 中 对 非 线 性 系统 给 出 了 它 
们 的 Cohen - Grossberg 定理 ， 系 统 包 含 Hopfield 网 络 和 其 他 联想 记忆 作为 其 特例 。13.9 FH 
述 另 一 个 被 称 为 盒 中 脑 状 态 模型 的 神经 动力 学 模型 ， 该 模型 非常 适用 于 聚 类 。 

最 后 部 分 是 13. 10 节 到 13. 11 节 ， 处 理 混 沌 的 相关 论题 。13. 10 节 讨 论 混沌 过 程 的 不 变 特 
征 ， 随 后 在 13. 11 节 讨 论 混沌 过 程 动 力学 重建 这 一 紧密 相关 题目 。 

最 后 是 13. 12 节 的 评论 。 


13.1 515 


以 这 种 或 那 种 形式 ， 时 间 在 学 习 中 扮演 着 重要 的 角色 ， 本 书 前 面 的 章节 中 多 效 材料 例 示 了 
这 点 。 基 本 上 说 ， 时 间 以 两 种 方式 显示 了 它 在 学 习 过 程 中 的 作用 : 

1. 静态 神经 网 络 (如 第 4 章 中 的 多 层 感 知 器 ) 将 它 通 过 一 个 或 短 或 长 的 记忆 结构 作为 动 

AS WRAY it JZ ÍT o 

2. FERS ALARA Bo Ar ck ae A HA RA SE TT SA BB ae 2 A i it. 

把 反馈 应 用 于 神经 网 络 有 两 种 基本 途径 : 

1. 局 部 反馈 ， 应 用 于 网 络 的 单一 神经 元 层次 上 。 

2. 全 局 反馈 ， 它 包括 一 个 或 多 个 隐藏 神经 元 或 更 好 的 整个 网 络 。 
局 部 反馈 处 理 起 来 相对 简单 ， 但 全 局 反馈 有 更 深 的 含义 。 在 关于 神经 网 络 的 文献 中 ， 带 有 一 个 
或 者 更 多 反馈 回路 的 神经 网 络 被 称 为 递归 了 网络。 

AL. 递归 神经 网 络 有 两 个 功能 : 

1. 联想 记忆 

2. 输入 -输出 映射 网 络 

本 章 讨 论 把 递归 神经 网 络 作为 联想 记忆 ， 作 为 映射 器 的 使 用 推迟 到 第 15 章 讲述 。 这 两 个 功 
能 中 的 任何 一 个 都 是 感 兴趣 的 应 用 ， 其 中 一 个 特别 重要 的 主题 是 稳定 性 ， 在 本 章 中 也 将 讨论 。 

反馈 就 像 一 柄 双 刃 剑 ， 如 果 你 不 能 恰当 地 使 用 它 ， 它 就 会 产生 负面 效果 。 特 别 地 ， 反 馈 的 
应 用 能 导致 本 来 是 稳定 的 系统 变 得 不 稳定 。 在 这 一 章 中 ， 我 们 的 主要 兴趣 在 于 递归 网 络 的 稳 
定性 。 

神经 网 络 视 为 非 线 性 动力 系统 ， 并 特别 强调 其 稳定 性 问题 ， 称 为 神经 动力 学 (neurody- 
namics) 。 非 线性 动力 系统 的 稳定 性 〈 或 不 稳定 性 ) 的 一 个 重要 特征 就 在 于 它 是 整个 系统 的 特 
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性 。 作 为 一 个 推论 : 
稳定 性 的 存在 总 是 意味 着 在 系统 的 各 个 独立 部 分 之 间 某 种 形式 的 协调 。 


对 神经 动力 学 的 研究 开始 于 1938 年 Nicholas Rashevsky 的 工作 ， 在 他 富 于 想象 力 的 思维 
中 动力 学 第 一 次 应 用 于 生物 学 。 

非 线性 动态 系统 的 稳定 性 是 一 个 处 理 起 来 很 坏 手 的 问题 。 当 谈 到 稳定 性 问题 的 时 候 ， 拥 有 
工程 背景 的 人 经 常会 想到 有 界 和 输入 和 有 界 输出 BIBO 的 稳定 性 准则 。 依 照 这 一 准则 ， 稳 定 
性 意味 着 如 果 有 界 的 输入 ， 初 始 条 件 或 不 必要 和 干扰， 那么 系统 的 输出 就 必定 不 会 无 界 地 增长 。 
BIBO 稳定 性 准则 非常 适合 于 线性 动态 系统 。 但 是 ， 由 于 嵌 人 神经 元 结构 之 中 的 饱和 非 线 性 使 
得 所 有 的 这 样 一 些 非 线 性 动态 系统 都 是 BIBO 稳定 的 ， 所 以 把 BIBO 稳定 性 准则 应 用 到 神经 网 
络 上 是 无 用 的 。 

当 在 非 线 性 动态 系统 背景 下 谈 到 稳定 性 时 ， 我 们 通常 都 意 昧 着 Lyapunov 意义 的 稳定 性 。 
在 1892 年 一 个 值得 庆贺 的 日 子 里 ，Lyapunov (一 位 俄罗斯 数学 家 和 工程师) 提出 了 众所周知 
的 稳定 性 理论 的 基本 概念 一 Lyapunov 直接 方法 。 这 一 方法 被 广泛 用 于 线性 和 非 线 性 系统 中 
的 稳定 性 分 析 ， 包 括 时 不 变 和 时 变 两 种 情况 。 因 此 ， 它 可 以 直接 用 于 神经 网 络 中 的 稳定 性 分 
析 。 事 实 上 ， 本 章 中 提 到 的 很 多 材料 都 处 及 Lyapunov 直接 方法 。 但 是 ， 它 的 应 用 不 是 一 个 轻 
松 的 任务 。 

对 神经 动力 学 的 研究 可 能 会 遵从 两 种 途径 之 一 ， 这 取决 于 实际 的 应 用 : 

。 确定 性 神经 动力 学 :此 时 神经 网 络 模型 带 有 确定 的 行为 。 数 学 上 用 一 组 非 线性 微分 方 
程 来 描述 ， 微 分 方程 定义 作为 时 间 函 数 的 模型 的 精确 进化 (Grossberg,， 1967; Cohen 
and Grossberg, 1983; Hopfield, 1984), 
统计 性 神经 动力 学 : 此 时 神经 网 络 受到 存在 噪声 的 干扰 。 在 这 种 情况 下 ， 我 们 将 不 得 
不 处 理 随机 非 线 性 微分 方程 组 ， 因 而 用 概率 术语 表示 解 (Amari 等 ，1972; Peretto, 
1984; Amari, 1990), 随机 性 和 非 线 性 的 组 合 使 得 这 个 主题 非常 难于 处 理 。 
在 本 章 中 ， 我 们 将 限制 在 确定 性 神经 动力 学 之 内 。 


13.2 动态 系统 


为 了 进行 神经 动力 学 的 研究 ， 我 们 需要 用 一 个 数学 模型 描述 非 线 性 系统 的 动力 学 。 目 然 
最 适合 这 一 用 途 的 模型 就 是 状态 空间 模型 。 根 据 这 个 模型 ， 我 们 考虑 一 组 状态 变量 ， 假 设 这 
些 变量 的 值 〈 在 任意 特定 时 刻 ) 都 包含 充分 的 信息 ， 可 以 预测 系统 的 可 能 演化 。 令 zx1 (2)， 
x(t) ,… ,zn(t) 表 示 非 线性 动态 系统 的 状态 变量 ， 其 中 连续 时 间 上 是 独立 变量 且 N 为 系统 的 
阶 。 为 了 简化 符号 ， 把 这 些 状 态 变 量 收集 在 一 个 叫做 系统 状态 向 量 ， 或 简称 为 状态 的 NX1 的 
向 量 x(2) 里 。 那 么 非 线 性 动态 系统 的 一 大 类 的 动力 学 特性 就 可 以 用 一 阶 微分 方程 组 的 形式 
给 出 


人 zi = F(a), j= 1,2.,N (13. 1) 


其 中 的 函数 F,(*) 是 它 的 自 变 量 的 非 线 性 函数 。 我 们 可 以 用 向 量 符号 把 这 个 方程 组 写成 紧 资 
形式 : 
d 


qx = F(x(t)) (13. 2) 


其 中 非 线 性 函数 下 是 向 量 值 的 ， 它 的 每 一 个 元 素 作 用 于 下 述 状 态 向 量 中 的 一 个 对 应 元 素 ， 
x(t) = [r Ct) pe Ct) pt pay Gt) |? (13. 3) 
如 在 式 (13. 2) 中 那样 ， 若 向 量 函 数 FCx(i) ) 不 显 式 地 依赖 于 时 间 上 ， 则 这 样 的 非 线性 动态 系统 
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被 称 为 自治 的 (autonomous); 否则 称 为 非 自治 的 (nonautonomous) 。 
不 管 非 线性 函数 EC') 的 精确 形式 是 什么 ， 状 态 向 量 x 必须 随时 间 改 变 ， 否 则 ，x(t) 就 是 
常量 而 系统 也 不 再 是 动态 的 。 因 此 我 们 可 以 正式 定义 一 个 动态 系统 如 下 : 


动态 系统 是 状态 随时 间 变 化 的 系统 。 


此 外 ， 我 们 可 以 把 dx/dt 作为 “速度 ”来 考虑 ， 不 是 在 物理 意义 上 而 是 在 抽象 意义 上 的 。 
那么 ,根据 式 (13.2)， 可 以 将 向 量 函 数 FCx) 称 为 速度 向 量 场 或 者 简单 地 称 为 向 量 场 (vector 
field) 。 
状态 空间 
将 状态 空间 方程 (13. 2) 看 做 描述 N 维 状 态 空间 中 一 个 点 的 运动 是 有 益 的 。 状 态 空 
间 可 能 是 欧 几 里 得 空间 或 者 是 它 的 一 个 子 集 。 也 可 能 是 非 欧 几 里 得 空间 ， 就 像 圆 、 球 、 
环 或 者 其 他 一 些微 分 流 形 。 但 是 ,我 们 的 兴趣 只 限于 欧 几 里 得 空间 (第 7 章 中 已 讨论 过 微 
分 流 形 ) 。 

状态 空间 很 重要 ， 因 为 它 给 我 们 提供 可 帘 的 且 概 念 化 的 工具 ， 用 来 分 析 由 式 (13. 2 描述 的 
非 线性 系统 的 动力 学 。 它 是 通过 把 我 们 的 注意 力 集中 于 运动 的 全 局 特性 而 不 是 方程 的 解析 解 或 
数值 解 的 细节 方面 来 实现 的 。 

在 某 一 特定 时 刻 AN 维 状态 空间 中 的 一 个 点 表示 系统 被 观察 状态 〈 即 状态 向 量 x). 
用 状态 空间 中 的 一 条 曲线 表示 系统 状态 随时 间 上 的 变化 ， 曲 线 上 的 每 一 点 都 〈 显 式 地 或 隐 含 
地 ) 带 有 记录 观察 时 间 的 标记 。 这 条 曲线 叫做 系统 的 轨 线 或 轨道 。 图 13. 1 描绘 了 一 个 二 维系 
统 的 轨 线 。 轨 线 的 瞬时 速度 〈 即 速度 向 量 dx(1)/dz) 用 切 向 量 表示 ， 如 图 13. 1 中 :一 加 时 刻 用 
虚线 的 表示 。 因 此 我 们 可 以 得 出 轨 线 上 每 一 点 的 速度 向 量 。 

由 不 同 初始 条 件 产生 的 不 同 轨 线 的 集合 称 为 系统 的 状态 相 图 (state portrait), 状态 相 图 包 
含 状态 空间 中 所 有 那些 定义 向 量 场 f(x) 的 点 。 注 意 对 于 自治 系统 来 说 ， 每 种 初始 状态 将 只 有 
一 条 轨 线 穿 过 。 从 状态 相 图 产生 的 一 个 有 用 概念 是 动态 系统 的 流 Clow), RE XARA Al 
在 系统 内 部 的 运动 。 换 句 话 说 ， 可 以 想象 一 下 状态 空间 在 自身 内 部 流动 ， 就 像 一 种 流体 ， 每 一 
个 点 (状态) 沿 着 一 条 特定 轨 线 的 流动 。 这 里 描述 的 流 的 思想 在 图 13, 2 的 状态 相 图 中 有 生动 








HY ve AH 
0 i 0 x 
图 13.1 二 维 动 态 系统 的 轨 线 BD 图 13.2 二 维 动态 系统 的 状态 〈 相 位 ) 图 
给 定 一 个 动态 系统 的 状态 相 图 ， 可 以 构造 一 个 对 应 于 状态 空间 中 每 一 个 点 的 速度 (切线 ) 
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问 量 场 。 这 样 得 到 的 图 也 提供 了 系统 中 辐 量 场 的 描绘 。 图 13. 3 中 显示 许多 速度 同 量 ， 展 现 完 
全 的 场 看 起 来 像 什 么 。 向 量 场 的 用 处 在 于 事实 上 它 通过 在 x 

状态 空间 中 每 一 个 特定 操 以 惯性 速度 移动 ， 给 我 们 提出 一 
种 对 动态 系统 固有 运动 倾 回 的 可 视 描述 


Lipschitz 杀人 和 件 


为 了 状态 空间 方程 式 (13. 2) 有 解 且 是 唯一 解 ， 必 须 在 向 
量 函 数 F(x) 上 施加 一 定 的 限制 。 为 了 便于 表示 ， 我 们 已 经 舍 
弃 了 状态 向 量 x 对 时 间 :的 依赖 ， 而 这 是 我 们 一 次 又 一 次 如 
从 的 惯例 。 存 在 解 的 充分 条 件 为 F(x) 对 它 的 所 有 目 变 量 是 连 
续 函 数 。 然 而 ， 它 这 一 限制 本 身 不 足以 保证 解 的 唯一 性 。 为 
了 做 到 这 一 点 ， 我 们 必须 施加 被 称 为 Lipschitz 条 件 的 额外 限 
制 。 令 || x || 表示 向 量 x 的 范 数 或 者 欧 几 里 得 长 度 。 令 xx 和 a 图 13.3 二 维 动力 系统 向 量 场 
作为 赋 范 向 量 (状态 ) 空间 上 某 一 开 集 上 的 一 个 向 量 对 。 然 后 ， 根 据 Lipschitz 条件， 存在 一 个 
常量 K 使 得 下 式 对 机 中 所 有 的 x A u Aber (Hirsch and Smale, 1974; Jackson, 1989): 

| Fœ -F | < K || x—u|| (13. 4) 
满足 式 (13. 4) 的 向 量 值 函数 F(x) 被 称 为 满足 Lipschitz 条 件 ，K 叫做 F(x) 的 Lipschitz 常数 。 
式 (13. 4) 也 意味 着 函数 F(x) 关于 x 的 连续 性 。 因 此 ， 对 自治 系统 来 说 ，Lipschitz 条 件 是 状态 
空间 方程 (13. 2) 存 在 且 只 存在 唯一 解 的 充分 条 件 。 特 别 地 ， 如 果 所 有 偏 导 数 F: dr; 处 处 有 
限 ， 则 函数 F(x) 满足 Lipschitz 条 件 。 

散 度 定理 

考虑 自治 系统 状态 空间 中 某 个 容积 V 和 曲面 S 的 区 域 ， 并 且 设 想 由 区 域 的 点 组 成 的 
“ 流 ”。 从 以 前 的 讨论 ， 我 们 认识 到 速度 向 量 dx/dt 和 向 量 场 F(x) 是 相等 的 。 倘 阁 容 积 V 内 的 
向 量 场 F(X) 是 相当 光滑 ， 则 可 以 从 向 量 微 积分 学 的 角度 应 用 艇 度 定理 (Jackson, 1975), on 
表示 曲面 S 上 某 小 块 dS 处 指向 所 包含 容积 外 部 的 单位 法 向 量 。 然 后 ， 根 据 散 度 定理 ， 关 系 式 


| CC bas = lw . F(x) dV (13.5) 
5 


在 F(x) 散 度 的 容积 积分 和 F(x) 向 外 法 线 分 量 的 曲面 积分 之 间 成 立 。 式 (13.5) 左 端的 值 被 认为 
是 从 曲面 $ 所 包围 的 区 域 中 流向 外 部 的 净 流 量 。 如 果 该 值 为 零 ， 则 说 系统 是 保守 的 《conser- 
vative) ， 若 为 负 ， 则 说 系统 是 耗 散 的 〈dissipative) 。 根 据 式 (13.5)， 同 样 可 以 说 : 


jo REV + F(x) (一 个 标量 ) 为 零 则 系统 是 保守 的 ， 若 为 负 则 系统 是 耗 散 的 。 





13.3 平衡 状态 的 稳定 性 


考虑 由 状态 空间 方程 (13. 2 描述 的 自治 动态 系统 。 一 个 常 向 量 KE JL 称 为 系统 的 平衡 〈 稳 
定 ) 状态 ， 如 果 条 件 
F(x) 一 0 (13. 6) 
满足 ， 其 中 的 0 为 零 向 量 。 速 度 向 量 dx/dt 在 平衡 状态 x 处 消失 ， 因 此 常量 方程 x(t) 一 Xx 是 方 
程 (13. 2) 的 解 。 此 外 ， 由 于 解 的 唯一 性 ， 没 有 其 他 的 解 曲 线 能 够 穿 过 平衡 状态 x。 平衡 状态 也 
称 为 奇异 点 ， 表 示 在 平衡 点 这 种 情况 下 ， 轨 线 将 会 退化 到 这 个 点 本 里 。 
为 了 加 深 对 平衡 条 件 的 理解 ， 假 设 非 线 性 函数 F(x) 对 于 状态 空间 方程 (13.2) 来 说 足够 光 
滑 ， 使 得 在 的 邻 域 可 以 作为 线性 函数 处 理 。 特 别 是 ， 令 
x(t) = K+ Ax(2) (13. 7) 
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其 中 的 Ax( 蚊 是 训 的 微小 偏差。 然后 ， 保 留 F(x) 的 Taylor 级 数 展开 中 的 前 两 项 ， 将 其 近似 为 F(x) 
F(x) ~ X+ AAx(?) (13. 8) 
矩阵 A 是 非 线性 方程 F(x) 的 Jacobi 4, ZEx=x SATA. RAW 


ee cs 
A= ay Pe (13. 9) 
将 式 (13.7) 和 式 (13.8) 代 入 式 (13. 2)， 然 后 使 用 平衡 状态 的 定义 ， 得 到 
Z ax) az AAx(t) (13. 10) 


倘若 Jacobi ERE A RIEARM, BBR A-: 存 在 ， 则 式 (13. 10) 描述 的 近似 值 足以 确定 系统 
ee TO ERAS XM wae. MRA 是 非 奇 异 的 ， 则 平衡 状态 的 性 质 主要 取决 于 A 的 
特征 值 ， 因 此 可 以 根据 它 的 相应 方式 进行 分 类 。 特 别 地 ， 当 Jacobi 和 矩阵 A 的 特征 值 有 m 个 带 有 
正 实数 部 分 时 ， 我 们 可 以 说 及 平衡 状态 具有 类 型 (type)m。 表 13.1 二 阶 系统 平衡 状态 的 分 类 
对 于 二 阶 系 统 这 种 特殊 情况 而 言 ， 平 衡 状 态 的 分 平衡 状态 x 的 类 型 | Jacobi Ri A 的 特征 什 
类 可 归结 为 表 13.1 所 列 的 情况 ， 相 应 相 图 表示 在 图 稳定 结 点 负 实 数 
13.4 中 ( Cook, 1986; Arrowsmith and Place, 稳定 焦点 SE BB Ay fh HSE He HK 
1990) 。 不 失 泛 化 性 ， 假 设 平衡 状态 位 于 状态 空间 的 原 TEER 正 实数 
点 ， 也 就 是 x—0 的 地 方 。 注 意 对 于 图 13. 4e 中 的 苇 TEEME | AREER 
点 ， 通 向 鞍点 的 轨 线 是 稳定 的 ， 而 从 鞍点 离开 的 轨 线 i 
则 是 不 稳定 的 。 















Xa 


虚构 的 
， x 真实 的 
aj mn Poo 0 
0 
a) b) 
X, X2 
虚构 的 E 虚构 的 x, 
| 真实 的 x 真实 的 
0 | gl x 
c) d) 
X: X3 
| 虚构 的 x 
虚构 的 x | 
真实 的 
_ | 、 真实 的 3 
i 
e) f) 


图 13.4 a) 稳定 结 点 ; b 稳定 焦点 ; c) DAER; D 不 稳定 焦点 ; e 鞍点 ; D RD 
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稳定 性 定义 


如 前 所 述 ， 状 态 空间 方程 的 线性 化 可 以 提供 关于 一 个 平衡 状态 的 局 部 稳定 特性 的 有 用 信 
。 但 是 ,为 了 能 以 一 种 更 加 细节 化 的 方式 研究 非 线 性 动态 系统 的 稳定 性 ， 我 们 需要 关于 平衡 
ee eh 
在 与 禹 有 平衡 状态 x 的 自治 非 线 性 动态 系统 相关 的 环境 中 ， 稳 定性 和 收敛 性 的 定义 如 下 
(Khalil, 1992): 
定义 1 者 对 于 任意 给 定 的 正 数 es， 存在 一 正 数 6 二 6(e)， 使 得 当 满 足 条 件 
| x(0) —x|| <s 
时 ， 对 于 所 有 之 0 恒 有 
| x) —x || <e 
则 称 平衡 状态 为 一 致 稳定 的 。 
这 一 定义 表明 如 果 初 始 状 态 x(0) 很 接近 ， 则 系统 的 一 条 轨 线 可 能 会 停留 在 平衡 状态 去 很 
小 的 一 个 邻 域内 ， 否 则 系统 将 不 平衡 ，。 
定义 2 如 果 存 在 一 个 正 数 5 使 得 当 条 件 
| x(o) —3| <6 
时 ， 对 于 
x(t) ~X, 一 CO 
则 称 平衡 状态 各 为 收敛 的 。 
第 二 个 定义 的 含义 是 ， 如 果 一 条 轨 线 的 初始 状态 x(0) 足 够 接近 于 平衡 状态 于， 则 在 时 间 z 
接近 无 穷 的 时 候 ， 由 状态 向 量 xO MARARA T X. 
定义 3 若 平衡 状态 是 稳定 的 并 且 是 收敛 的 ， 则 称 平衡 状态 各 为 渐 近 稳定 的 。 
这 里 要 注意 稳定 性 和 收敛 性 是 互相 独立 的 性 质 。 只 有 两 者 都 具备 才 有 渐 近 稳定 性 。 
定义 4 ”如果 平衡 状态 是 稳定 的 ， 并 且 所 有 的 系统 轨 线 在 时 间 TR eee 
则 称 平 第 状态 X A AY ah AE FE 
这 一 定义 意味 着 系统 不 可 能 有 其 他 的 平衡 状态 ， 而 且 它 要 求 系统 中 的 每 一 条 轨 线 对 所 有 的 
时 间 > 都 保持 有 界 。 换 句 话 说， 全 局 渐 近 稳定 性 意味 着 对 于 任意 初始 条 件 系 统 都 将 最 终 稳 
定 在 一 个 稳 态 上 。 e 
例 1 一 致 稳定 性 
令 式 (13. 2) 表 示 的 非 线性 动态 系统 的 解 uC) 
随时 间 变 化 ， 就 像 图 13.5 中 显示 的 那样 。 如 图 
13.5 所 示 ， 为 了 解 u(t) 是 一 致 稳定 的 ， 我 们 需要 
u(t) 和 任何 其 他 解 v(#) 在 同样 的 1: 值 〈( 即 时 间 “ 滴 
答 ”) 时 保持 互相 接近 。 这 种 行为 被 称 为 两 个 解 
ut) 和 和 v(t) 的 同步 对 应 (isochronous correspon- 
dence) 。 设 解 u(t) 是 收敛 的 ， 假 定 对 于 每 一 个 其 他 图 13.5 ”状态 向 量 一 致 稳定 的 概念 图 示 
的 解 v(z)， 在 t= 二 0 处 v(0) 一 u(0) || SAO MZ, 四 
则 解 v(t 和 uCz) 当 z 趋 于 无 穷 时 收 钱 于 平衡 状态 。 = 
Lyapunov 定理 
定义 了 动态 系统 的 稳定 性 和 渐 近 稳定 性 之 后 ， 下 一 个 要 考虑 的 问题 就 是 确定 稳定 性 。 显 而 易 见 
我 们 可 以 通过 实际 地 找到 系统 状态 空间 方程 的 所 有 可 能 解 来 做 到 ; 但 是 这 种 方法 (即使 有 可 能 〉 也 
是 非常 困难 的 。 一 个 更 好 的 方法 可 以 在 现代 稳定 性 理论 中 找到 ， 该 理论 由 Lyapunov (1892) 创立 。 
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具体 地 讲 ， 我 们 可 以 通过 应 用 Lyapunov 直接 方法 来 研究 稳定 性 问题 ， 这 个 方法 使 用 叫做 Lya 
punov 函数 的 状态 向 量 的 连续 标量 函数 。 

由 方程 (13. 2) 描 述 的 具有 状态 向 量 x(z) 和 平衡 状态 的 自治 非 线 性 动态 系统 ， 关 于 它 的 状 
态 空间 的 稳定 性 和 渐 近 稳定 性 的 Lyapunov 定理 可 以 陈述 如 下 (Khalil, 1992): 

定理 1 如 果 在 吉 的 小 邻 域 内 存在 一 个 正定 函数 VC(X)， 其 对 时 间 的 导数 在 该 及 域内 是 半 负 
定 的 ， 则 平衡 状态 玉 是 稳定 的 。 

定理 2 和 如果 在 误 的 小 邻 域 内 存在 一 个 正定 函数 V(x)， 其 对 时 间 的 导数 在 该 区 域内 是 负 定 
的 ， 则 平衡 状态 误 是 渐 近 稳定 的 。 

BEV LEK ARS AK VOA) 4 MEA A A X 49 Lyapunov BR, 

这 两 个 定理 要 求 Lyapunov 函数 是 正定 函数 。 这 样 的 通 数 定义 如 下 : 

1. 函数 V(x) 对 状态 向 量 X 中 所 有 元 素 有 连续 偏 导 数 

2. V(x) =0 

3. wX xECU—x, WVCx)>O0 

给 出 这 样 的 Lyapunov AA VO, AE Ll, OG 


iyw <0, ypres i (13.11) 
成 立 :， 则 平衡 状态 区 是 稳定 的 。 此 外 ， 根 据 定理 2， 符 
FV) <0, tex eC UX (13. 12) 


成 立 ， 则 平衡 状态 和 是 渐 近 稳定 的 。 

这 一 讨论 的 重要 之 处 在 于 可 以 不 求解 系统 的 状态 空间 方程 而 直接 应 用 Lyapunov 定理 。 不 
幸 的 是 ， 定 理 并 没有 给 出 如 何 找 到 Lyapunov 函数 的 提示 ; 在 每 种 情况 下 ， 它 是 一 件 创造 性 
的 、 试 验 性 的 和 易 错 的 事情 。 对 于 感 兴趣 的 很 多 问题 ， 能 量 函 数 可 以 起 到 Lyapunov 函数 的 作 
H. 但 是 ， 无 法 找到 适用 的 Lyapunov 函数 并 不 能 证 明 系 统 的 不 稳定 性 。 因 为 Lyapunov 函数 
的 存在 是 系统 稳定 的 充分 条 件 ， 而 不 是 必要 条 件 。 

Lyapunov RA VCx) 为 对 由 式 (13. 2) 描 述 的 非 线 性 动态 系统 进行 稳定 性 分 析 提 供 了 数学 基 
础 ， 另 一 方面 ， 基 于 Jacobi 矩阵 A， 使 用 式 (13. 10) 为 进行 系统 局 部 稳定 性 分 析 提 供 基 础 。 人 和 位 
单 地 说 ，Lyapunov 稳定 性 分 析 的 结论 比 局 部 分 析 更 有 力 。 
Lyapunov 平面 

为 了 直观 地 理解 两 个 Lyapunov 定理 ， 我 们 引入 Lyapunov 平面 的 概念 ， 正 式 定 义 如 下 

V(x) 一 c， 对 于 一 些 正常 数 c 汪 0 


在 定理 1 下， 条 件 


dvix) <0 
dt 


音 味 着 一 旦 轨迹 对 于 某 一 正常 数 c A Lyapunov 平面 ， 轨 迹 将 移 人 一 些 点 定义 的 集合 
xE RX, AK VOX) <0 
并 且 不 会 再 跑 出 Lyapunov 平面 。 在 这 个 意义 上 我 们 说 在 定理 1 下 系统 是 稳定 的 。 


dyw <0 
dt 


意味 着 轨迹 将 从 一 个 Lyapunov 平面 移 人 一 个 具有 更 小 常数 的 内 部 的 Lyapunov 平面 ， 如 图 
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13. 6 所 示 ， 特 别 地 ， 伴 随 着 常数 c 的 值 减少 ，Lyapunov 平面 以 相应 的 方式 向 平衡 状态 x 靠近 ， 这 
点 瞳 示 着 随 着 t 的 前 进 轨迹 接近 平衡 状态 3x。 但 
是 我 们 不 能 肯定 随 着 too, 轨迹 将 真正 收敛 到 
XE。 虽 然 如 此 ， 我 们 能 得 出 结论 : 在 此 严格 意义 
上 平衡 状态 和 是 稳定 的 ， 即 轨迹 被 包含 在 任何 具 
有 某 一 小 半径 e 的 球 % 中 ， 要 求 初始 条 件 x(0) 位 
于 包含 在 一 个 球 中 的 Lyapunov 平面 内 (Khalil, 
1992) 。 另 外 ， 这 个 条 件 是 我 们 在 8. 5 节 中 提 到 的 
有 关 最 大 特征 过 滤 渐 进 稳定 性 的 条 件 。 





13.4 有 吸引 子 
耗 散 系 统一 般 可 以 用 存在 吸引 集 或 者 比 状 Æ 13.6 随 着 常数 “减少 的 Lyapunov 平面， 
态 空间 维 数 低 的 流 形 来 表征 。 流 形 的 概念 在 第 7 人 
章 讨论 过 。 简 单 地 说 ,“ 流 形 ” 是 指 嵌入 在 N 维 状态 空间 中 的 一 个 上 维 曲面 ， 它 由 方程 组 
M; (2x1 sz? ，*"* 9 TN) 一 0， Bo (13. 13) 
R<N 


定义 ， 其 中 Tı s Tz "s EN 是 系统 N 维 状态 向 量 的 元 素 ， M; 是 这 些 元 素 的 一 个 图 数 。 这 些 流 形 
称 为 吸引 子 ， 这 是 因为 吸引 子 为 有 界 子 集 ， 初 始 条 件 为 非 零 状 态 空间 体积 的 区 域 随时 间 增 加 
me BIEN. 

流 形 可 以 是 状态 空间 中 的 一 个 点 ， 这 种 情况 叫做 点 吸引 子 。 男 外 ， 它 也 可 以 是 周期 性 轨道 ， 
这 种 情况 叫做 稳定 的 极限 环 ， 稳 定 意味 着 附近 的 轨 线 渐 近 地 趋 近 它 。 图 13.7 描绘 了 这 两 种 类 型 
的 吸引 子 。 吸 引子 只 代表 动态 系统 中 的 平衡 状态 ， 它 们 可 以 通过 用 实验 方法 观察 到 。 但 是 ， 注 意 
在 吸引 子 的 情况 下 ， 平 衡 状态 Cequilibrium) 既 不 意味 着 一 个 静态 平衡 (static equilibrium) ， 也 不 
意味 一 个 定常 状态 (steady state) 。 例 如 ， 一 个 极限 环 代表 一 个 吸引 子 的 稳定 状态 (stable state), 
但 是 它 随时 间 连 续 变化 。 

在 图 13.7 中 ， 我 们 注意 到 每 个 吸引 子 由 它 
自己 独 有 的 区 域 包围 。 这样 的 区 域 叫做 吸引 爹 
(3%) (basin (domain) of attraction) 。 同 时 注 
意 系 统 的 每 个 初始 状态 都 在 某 一 吸引 子 的 盆 中 。 
分 隔 不 同 吸 引 僵 的 边界 叫做 分 界线 〈separa- 
trix), K 13.7 PRBWA HART. WAQ 
MLR T: 的 并 表示 。 

极限 环 组 成 非 线性 系统 的 平衡 点 变 得 不 稳 
定时 出 现 的 振东 行为 的 典型 形式 。 因 此 ， 它 可 A157 RSM An a 
能 出 现在 任意 阶 的 系统 中 。 虽 然 如 此 ， 极 限 环 是 二 阶 系统 特殊 的 特征 。 

双 曲 吸引 子 

考虑 一 个 点 吸引 子 ， 它 的 非 线 性 动态 方程 在 平衡 状态 附近 被 线性 化 ， 如 13. 2 市 中 描述 
Wisk, SA 表示 系统 在 x 二 x 人 处 计算 出 的 Jacobi ERF. MRA 所 有 特征 值 的 绝对 值 都 小 于 1， 
则 吸引 子 是 双 曲 吸引 子 (hyperbolic attractor) (Ott，1993) 。 例 如 ， 二 阶 双 曲 吸引 子 的 流 可 以 
为 图 13. 4a 或 者 13. 4b 中 所 显示 的 形式 ; 两 种 情况 下 Jacobi 和 矩阵 A 的 特征 值 都 有 负 实 数 部 分 。 
双 曲 吸引 子 在 称 为 “消除 梯度 问题 ”的 研究 中 受到 特别 的 关注 ， 这 种 问题 出 现在 动态 驱动 的 递 
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归 网 络 中 ; 这 一 问题 将 在 第 15 章 讨 论 。 
13.5 神经 动态 模型 


对 非 线 性 动态 系统 的 性 能 有 所 了 解 之 后 ， 准 备 在 本 节 和 下 一 节 探 讨 一 下 神经 动力 学 所 包含 
的 一 些 重要 问题 。 我 们 要 强调 的 是 ， 对 于 神经 动力 学 还 没有 一 个 被 普遍 认可 的 定义 。 我 们 也 不 
是 要 给 出 这 样 一 个 定义 ， 而 是 将 定义 本 章 中 所 考虑 的 神经 动力 学 最 普遍 的 属性 。 特 别 地 ， 讨 论 
将 局 限于 状态 变量 是 连续 的 并 且 运 动 方程 由 微分 方程 或 差分 方程 描述 的 神经 动态 系统 。 受 关注 
的 系统 具有 四 个 普遍 特性 (Peretto and Niez, 1986; Pineda, 1988a); 

1. 大 量 自由 度 。 大 脑 皮层 是 高 度 并 行 的 分 布 式 系统 ， 据 估计 约 有 100 亿 个 神经 元 ， 每 个 
神经 元 用 一 个 或 更 多 状态 变量 来 描述 。 据 信 这 样 一 个 神经 动力 学 系统 的 计算 能 力 和 容错 能 力 是 
系统 的 集体 动力 学 的 结果 。 系 统 可 以 表征 为 大 量 的 由 每 个 突 触 连接 的 强度 (效能 (effficacy)) 
表示 的 耦合 常量 。 

2. 非 线 性 性 。 神 经 动力 学 系统 是 非 线 性 的 。 事 实 上 ， 非 线性 是 建立 通用 计算 机 如 的 基础 。 

3. 耗 散 性 。 神 经 动力 学 系统 是 耗 散 的 。 因 此 ， 它 由 随时 间 状 态 空间 的 收敛 性 所 表征 ， 这 
个 空间 在 维 数 较 低 的 空间 上 。 

4. 噪声 。 最 后 ， 噪 声 是 神经 动态 系统 内 在 特征 。 在 实际 神经 元 中 ， 膜 噪声 在 突 触 连接 处 
产生 (Katz, 1966). 

噪声 的 存在 需要 对 神经 元 行为 利用 概率 处 理 ， 这 给 分 析 神 经 动力 学 系统 增加 了 为 一 层次 上 
的 复杂 性 。 对 随机 神经 动力 学 的 详细 处 理 超 出 本 书 的 范围 。 因 此 ， 以 后 的 材料 中 均 忽 略 曲 声 的 
影响 ，。 

加 性 模型 

考虑 图 13.8 所 示 的 神经 元 的 无 噪声 动态 模型 ， 其 数学 基础 已 在 13 章 讨 论 过 了 。 使 用 物理 
术语 来 说 ， 突 触 权 值 Tj; » Uj2 °° Wn 表示 传导 系数 ， 各 自 的 输入 Ti CE) (tz),… ,XN (tf) 表示 电 
压 ，N 是 输入 数量 。 这 些 输入 被 用 于 有 如 下 特点 的 电流 求 和 连接 上 : 

。 低 输 入 阻抗 

。 单位 电流 增益 

。 高 输出 阻抗 
因此 对 输入 电流 来 说 ， 它 扮演 求 和 节点 的 角色 。 图 13. 8 中 非 线 性 元 素 〔 激 活 函 数 ) 流 丫 输入 
节点 的 总 电流 流量 为 : 


> warilt) + I; 


其 中 第 一 项 ( 求 和 项 ) 是 由 于 刺激 a.nd. zx (分别 作 用 在 突 触 权 值 〈 传 导 系 数 ) 
Wj Wz 9 8°" ,wn 上 » 第 二 项 是 由 于 电流 源 I; 代表 额外 施加 AY Ad E o 令 Uj (t) FAR GE R E M NS PKI 
数 oO Ht A Ab RA F JR. 因此 可 以 表示 从 非 线性 元 素 的 输入 节点 流出 的 总 电流 量 为 两 项 
的 和 : 

v; (t dv; (t) 

RO E 
Hep se R, BOW PA C;。 根 据 Kirchoff BAe, BNA 
道 电路 中 流向 任何 节点 的 总 电流 流量 为 零 。 通 过 应 用 Krichoff 电流 定律 于 图 13.8 中 的 非 线性 


输入 节点 ， 得 到 





dv,(t) ,v(t) _ < 
oa oR Pwr +L (13. 14) 


i=l 
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式 (13. 14) 左 端的 电容 项 Cdo (2) /de 是 在 神经 元 模型 上 添加 动力 学 〈 记 忆 ) 的 最 简单 的 途径 。 
给 定 诱导 局 部 域 v,(t)， 可 以 通过 使 用 非 线 性 关系 : 

Xi(t) = DCT (1)) (13. 15) 
来 确定 神经 元 ;7 的 输出 。 由 式 (13. 14) 描 述 的 RC 模型 通常 称 为 加 性 模型 ， 这 一 术语 用 于 区 别 
本 模型 wx 和 依赖 于 x, 的 乘法 〈 或 并 联 ) 模型 。 


Wy wx Ce) 
x,(¢) 5 


w. 
2 (1) a J2 Za 


I 
突 触 Wa wx lt) 当前 E wx (0) 7 非 线性 输出 


(Do -| ge) Ho x(0 
ar) * R 
和 点 


WN Wy XD 
x(t) 0 


图 13.8 神经 元 的 加 性 模型 


由 式 (13. 14) 描 述 的 加 性 模型 的 一 个 显著 特性 就 是 相 邻 神经 元 :施加 在 神经 元 7 上 的 信和 号 
Xi(t) 是 随时 间 :缓慢 改变 的 。 因 此 描述 的 模型 组 成 传统 神经 动力 学 的 基础 。 

继续 考虑 一 个 包含 N 个 互相 连接 的 神经 元 的 递归 网 络 ， 假 设 其 中 每 一 个 神经 元 都 有 与 式 
(13. 14) 和 式 (13. 15) 同 样 的 数学 模型 。 那 么 ， 忽 略 神 经 元 内 部 时 间 传 播 的 延迟 ， 我 们 可 以 用 联 
立 的 一 阶 微 分 方程 组 的 系统 
C, ou) = 
定义 网 络 的 动力 学 ， 它 和 状态 方程 (13.1) 有 同样 的 数学 形式 ， 并 且 是 式 (13. 14) 中 各 项 的 简单 
再 排列 。 假 设 与 神经 元 7 的 输出 x; Ci) 相关 的 激活 函数 g(*) 对 它 的 诱导 局 部 域 v(t) 来 说 是 连续 
和 对 时 间 /上 是 可 微 的 函数 。 普 遍 使 用 的 激活 函数 是 logistic PAX 


1 f 
=< Sa ee ee = 9Gy°** 4 3. 17 
IFexp æy) 7 we N Cl ) 


13.6 节 至 13.11 节 中 描述 的 学 习 算法 存在 的 必要 条 件 在 于 由 式 (13. 15) 和 式 (13. 16) 描 述 的 递 
归 网 络 具 有 固定 点 〈 即 点 吸引 子 )。 
相关 模型 
为 了 简化 说 明 ， 我 们 假设 式 (13. 16) 中 神经 元 7 的 时 间 常 数 rm = ROC 对 所 有 的 7 都 相同 。 
那么 ， 通 过 关于 这 一 时 间 常 数 的 公共 值 归 一 化 时 间 :， 关 于 R; BAe w: I, RATT AE 
构造 式 (13.16) 的 模型 以 如 下 简单 形式 : 
WO ae) + Pwe, j= 2N (13. 18) 


其 中 我 们 也 并 人 了 式 (13. 15) 。 联 立 一 阶 非 线性 微分 方程 组 (13. 18) 的 吸引 子 结构 和 以 下 描述 的 
紧密 相关 模型 的 吸引 子 结构 基本 上 相同 (Pineda, 1987): 
FE lt) + p( Dwirilt)) + Kj, 7 一 1 2 (13. 19) 


由 式 (13. 18) 描 述 的 加 性 模型 中 9 独立 神经 元 的 诱导 局 部 域 vi Cr) 9 Ue Ct) er , Un (E) Fa) MAR AS m 





at X wr) +1, J = 1,2, N (13. 16) 


pl Uji) 
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量 。 另 一 方面 ， 在 由 式 (13. 19) 描 述 的 相关 模型 中 ， 神 经 元 的 输出 zi sarl), an E)E 
状态 向 量 。 

这 两 种 神经 动力 学 模型 事实 上 通过 线性 的 可 道 变 换 是 相关 的 。 具 体 地 讲 ， 通 这 在 式 
(13. 19) 两 侧 同 乘 以 rw ， 对 7 了 求 和 ， 然 后 用 变换 

v(t) = D wyr) 
进行 替换 ， 得 到 一 个 由 式 (13. 18) RMR, HA IA ee Ai E H 
I; = 六 /mw 天 | 

相关 联 。 这 里 的 重要 之 处 是 注意 与 式 (13.18) 的 加 性 模型 的 稳定 性 相关 的 结果 也 适用 于 与 式 


(13. 19) 相 关 的 模型 。 
对 于 式 (13. 18) 和 式 (13. 19) 的 神经 动力 学 模型 的 框图 工具 的 说 明 ， 可 以 参考 习题 13. 2 。 


13.6 作为 递归 网 络 范 例 的 吸引 子 操 作 


当 神 经 元 数量 N 非常 大 的 时 候 ， 除 去 噪声 的 影响 ， 式 (13. 16) 描述 的 神经 动力 学 模型 具 
有 13. 5 节 中 概述 的 普遍 特性 : 大 量 的 自由 度 、 非 线性 性 和 耗 散 性 。 因 而 ， 这 样 一 个 神经 动力 
学 模型 可 能 拥有 复杂 的 吸引 子 结构 ， 并 因此 展示 出 有 用 的 计算 能 力 。 

确认 具有 计算 对 象 (如 联想 记忆 、 输 入 -输出 映射 器 ) 的 吸引 子 是 神经 网 络 范例 的 一 个 基 
础 。 为 了 实现 这 一 思想 ， 我 们 必须 训练 控制 吸引 子 在 系统 状态 空间 中 的 位 置 。 于 是 为 了 以 希 户 
的 形式 编码 信息 或 者 学 习 感 兴趣 的 时 间 结 构 ， 学 习 算 法 采用 了 非 线 性 动力 学 方程 的 形式 来 操纵 
吸引 子 在 状态 空间 的 位 置 。 通 过 这 一 途径 ， 在 机 器 的 物理 性 能 和 计算 的 算法 之 间 建 立 紧密 的 联 
系 是 可 能 的 。 

利用 神经 网 络 的 集体 属性 实现 计算 任务 的 一 种 途径 就 是 经 由 能 量 最 小 化 的 概念 。 在 13.7 
节 和 13. 9 节 中 将 分 别 考 虑 的 Hopfield 网 络 和 盒 中 脑 状 态 模 型 是 这 种 方法 著名 的 例子 。 这 两 种 
模型 都 是 能 量 最 小 化 网 络 ; 它们 的 不 同 之 处 在 于 应 用 领域 不 同 。Hopfield 网 络 作为 按 内 容 寻 址 
存储 或 者 用 于 解决 组 合 类 型 最 优化 问题 的 模拟 计算 机 是 有 用 的 。 另 一 方面 ， 盒 中 脑 状态 模型 对 
于 聚 类 类 型 的 应 用 是 有 用 的 。 本 章 后 面 几 节 将 对 这 些 应 用 进行 说 明 ， 

Hopfield 网 络 和 盒 中 脑 状 态 模 型 是 不 含 隐藏 神经 元 的 
联想 记忆 的 实例 联想 记忆 是 智能 行为 的 一 个 重要 来 源 。 
另 一 个 神经 动力 学 模型 是 输入 输出 映射 器 类 型 的 ， 它 的 运 
行 依赖 于 隐藏 神经 元 的 可 用 性 。 在 这 后 一 种 情况 中 ， 最 速 
下 降 方法 经 常 被 用 于 最 小 化 根据 网 络 参数 定义 的 代价 函数 ， 
并 因此 改变 吸引 子 的 位 置 。 第 15 章 中 讨论 的 动态 驱动 的 伸 
归 网 络 可 以 作为 这 后 一 种 神经 动力 学 模型 的 应 用 的 例证 。 


13.7 Hopfield 模型 


如 图 13.9 中 描绘 的 那样 ，Hopfield AS 〈 模 型 ) 包 合 
一 组 神经 元 和 一 组 相应 的 单位 延迟 ， 构 成 一 个 多 回路 反馈 
系统 。 反 馈 回 路 的 数量 等 于 神经 元 数量 。 基 本 上 ， 每 个 神 人 
经 元 的 输出 都 通过 一 个 单位 延迟 元 素 被 反馈 到 网 络 中 为 外 神经 元 。 ”单位 时 间 





的 每 一 个 神经 元 。 换 句 话说， 网 络 中 没有 自 反 馈 ; BAB 延 时 运算 
用 自 反 馈 的 原因 将 在 后 面 解 释 。 图 13.9 有 4 个 神经 元 的 Hopfield 
为 了 研究 Hopfield 网 络 的 动力 学 ， 我 们 使 用 式 (13. 16) 网 络 结 爸 图 
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描述 的 基于 神经 元 加 性 模型 的 神经 动力 学 模型 。 
认识 到 zi 9 一 Put) 之 后 ， 我 们 可 以 把 式 (13. 16) 改 写成 以 下 形式 : 


d 有 
C; ap (i) = = 


为 了 继续 讨论 ， E. 
1， 罕 触 权 值 矩 阵 是 对 称 的 ， 表 示 为 : 
wa = Wy， 对 于 所 有 的 上 和 7 (13. 21) 
2. 每 个 神经 元 有 它 自 己 的 非 线 性 激活 函数 一 一 因此 在 式 413. 20) 中 使 用 wm (>). 
3. JERE RA RTH, AWS: 


+ Dwipilu DHL, j=l N (13. 20) 


4 sigmoid K% o: Cv) XL REH RAE NX: 
_ ¡U 1 一 exp(— a,v) 
r= gi (uv) = tanh( #2) = ep an (13. 23) 
在 原点 处 斜率 为 Qi/2， 表示 为 
a: _ dg: 
9 A ee A (13. 24) 





此 后 我 们 将 把 a 称 为 神经 元 i 的 增益 。 
在 式 (13. 23) 的 sigmoid 函数 的 基础 上 ， 式 (13. 22) 的 道 输出 -输入 关系 可 以 写成 : 





v= g(x) 一 一 二 log( +=) (13. 25) 
— 7S BA {7 85 FA 7 By ae a A Se R RE SE SC: 
g(x) = 一 log( 了 二 =| (13. 26) 
按照 这 一 标准 关系 可 以 把 式 (13. 2 KB A: 
gr (zx) = Lgr (x) (13. 27) 
图 13. 10a 显示 标准 sigmoid 的 非 线性 函数 p(v) 的 曲线 ， A 13. 10b Bata ne IEA ez we 


pg ' (Zz) 的 曲线 。 


x=ọ(v) v=" (x) 





b) 


图 13.10 a) 标准 的 sigmoid ERER; D 它 的 道 定 义 
图 13. 9 中 的 Hopfield 网 络 的 能 量 (Lyapunov) PAE MA: 
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-一 二 >》 Dj wats + 之， RA | jade — Dz (13. 28) 
由 式 (13. 28) 定 义 的 能 量 函 数 玉 为 可 能 具有 很 多 极 小 点 的 复杂 图 像 。 网 络 的 动力 学 由 寻找 那些 
极 小 点 的 机 制 描述 。 
有 了 最 小 化 在 心中 ， 求 王 对 时 间 上 的 微分 ， 得 到 : 
}( Mune -P +4) F a (13. 29) 
由 于 式 (13. 20) ， 式 (13. 29) 右 端 圆 括号 内 的 值 被 认为 是 Cjdwv;(t)/dit。 于 是 可 以 把 式 (13. 29) 
化 为 : 
dE Xc (Sa) = (13. 30) 
现在 考虑 由 zi ELK v WERK. 将 式 (13 DRAR. 30), 48]: 
E Solis] $- Soa ireo] assy 


从 图 13. 10b 中 可 以 看 出 逆 输 出 输入 关系 p (x; ) 对 输出 x; 是 单调 增 函 数 ， 因此 它 遵 守 














gr (zi) > 0, 对 于 所 有 的 x, (13. 32) 
我 们 也 注意 到 : 
(=) >So, 对 于 所 有 的 x, (13. 33) 


Am. MAERO 31) 右 端 求 和 的 因子 都 是 非 负 的 。 换 名 话说， 对 式 (13. 28) 定 义 的 能 量 函 数 
E 来 说 ， 我 们 有 


守之 0， 对 于 所 有 的 上 


由 式 (13. 28) 的 定义 可 以 看 出 函数 瑟 是 有 界 的 。 因 此 ， 我 们 可 以 做 出 以 下 两 个 陈述 ， 

1. 能量 函数 瓦 是 连续 Hopfield 模型 的 Lyapunov HX. 

2. 根据 Lyapunov 定理 1 模型 是 稳定 的 。 

换 名 话说， 由 非 线 性 一 阶 微分 方程 组 (13. 20) 的 系统 描述 的 连续 Hopfield 模型 的 时 间 演 化 
代表 状态 空间 中 的 一 条 轨 线 ， 该 轨 线 找 出 能 量 (Lyapunov) 函数 忆 的 极 小 值 并 在 这 样 的 固定 
点 上 终止 。 从 式 (13. 31) 也 要 注意 ， 仅 当 


fn, (1) 二 0， 对 于 所 有 的 7 


导数 dE/di 变 为 零 。 因 此 可 以 进一步 写 出 


Œ <o, 固定 点 除外 (13. 34) 


式 (13. 34) 给 出 了 下 述 定 理 的 基础 ; 

Hopfield 网 络 的 〈Lyapunov) #82 AX E 2 at ll 5 PA RK, 

Hit, Hopfield 网 络 在 Lyapunov 意义 上 说 是 全 局 渐 近 稳定 的 ; 吸引 子 固定 点 是 能 量 画 数 
的 极 小 值 ， 反 之 亦 然 。 
离散 和 连续 Hopfield 模型 的 稳定 状态 之 间 的 关系 

Hopfield 网 络 可 以 用 连续 方式 或 离散 方式 运行 ， 依赖 于 描述 神经 元 所 采用 的 模型 。 连 续 模 
型 的 运行 基于 前 面 描述 的 加 性 模型 。 另 一 方面 ， 离 散 模 型 的 运行 基于 McCulloch Pitts 模型 。 
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通过 重新 定义 神经 元 的 输入 -输出 关系 ， 很 容易 在 连续 Hopfield 模型 稳定 状态 和 相应 的 离散 
Hopfield 模型 的 稳定 状态 之 间 建 立 联 系 ， 使 得 这 样 的 关系 满足 下 面 两 个 简化 特性 : 
1. 神经 元 的 输出 有 渐 近 值 
+1 4u,=% 
ae a oE (13. 35) 
2. 神经 元 激活 函数 的 中 点 在 原点 处 ， 表 示 为 
pi(0) 二 0 (13. 36) 
相应 地 ， 可 以 对 所 有 的 7 设置 偏 置 1 AS. 

为 了 表示 连续 Hopfield 模型 的 能 量 函 数 瑟 ， 人 允许 神经 元 有 自 反 回路 。 另 一 方面 ， 离 散 
Hopfield 模型 不 需要 自 反 回路 。 因 此 ， 可 以 通过 在 两 种 模型 中 对 所 有 的 7 都 设置 wj; 一 0 来 简 
化 讨论 。 

根据 这 些 观 察 ， 可 以 用 如 下 形式 重新 定义 式 (13. 28) 给 出 的 连续 Hopfield 模型 的 能 量 
PRI BY : 





N N N a 
E 一 一 > 2, Dy With + 24 zl. Qj (xz) dx | (13. 37) 
由 式 (13. 27) 定义 反 函 数 pg; ' (zx)。 于 是 可 以 重 写 式 (13. 37) AE RZN TF : 
] N N N ] z 7 
a) 2 Dy wat its a > | (x) dz (13. 38) 
积分 
i D (x)dz 


有 图 13. 11 中 显示 的 标准 形式 。 在 zj; 二 0 积分 值 为 零 ， 其 他 情况 
其 值 为 正 。 假 设 在 x, 接近 士 1 时 其 值 非常 大 。 但 是 ， 如 果 神 经 元 
j 增益 wj 变 为 无 穷 大 〈 例 如 sigmoid 函数 的 非 线 性 趋 于 理想 的 硬 
限制 形式 ) ， 式 (13. 38) 中 的 第 二 项 就 小 得 可 以 忽略 不 计 了 。 在 限 
HERF., HWER j, M a = ohti Hopfield 模型 的 极 大 、 
极 小 值 变 成 和 离散 Hopfield 模型 中 的 对 应 值 相 等 。 在 后 一 情况 
F, BH (Lyapunov) 郴 数 的 定义 简化 为 : 


N N 


E =— 5 YS wriz, (13. 39) 





其 中 第 7 个 神经 元 状态 为 xz); —+1. AK, RNB: 高 增 
益 的 、 连 续 的 和 确定 的 Hopfield 模型 仅 有 的 稳定 点 对 应 于 离散 随 
机 Hopfield 模型 的 稳定 点 。 的 图 形 

然而 ， 当 每 一 个 神经 元 ; 有 很 大 但 是 有 限 的 增益 zw; 时 ， 我 们 发 现 式 (13. 38) 右 端 第 二 项 对 
连续 模型 的 能 量 函 数 有 明显 的 贡献 。 特 别 地 ， 这 一 贡献 在 靠近 定义 模型 状态 空间 的 超 立 方 体 的 
所 有 面 、 边 和 和 角 点 处 都 很 大 并 且 为 正 。 而 另 一 方面 ， 该 贡献 在 远离 曲面 的 点 处 又 小 得 可 以 忽 
略 。 因 此 ， 这 种 模型 能 量 函 数 的 最 大 值 在 角 点 处 ， 但 最 小 值 却 略 微 向 超 立 方 体 的 内 部 偏 移 。 

图 13. 12 画 出 了 两 个 神经 元 的 连续 Hopfield 模型 的 能 量 等 值 线 图 或 能 量 图 。 两 个 神经 元 
的 输出 定义 图 中 的 两 个 坐标 轴 。 图 13. 12 中 左下 角 和 右上 角 代 表 无 穷 增 益 限 制 情况 下 的 稳定 最 
小 值 ， 有 限 增 益 情 况 下 的 最 小 值 将 向 内 部 偏 移 。 流 向 固定 点 〈 即 稳定 最 小 值 ) 的 流 可 以 解释 为 
式 (13. 28) 定 义 的 能 量 函 数 五 的 最 小 化 的 解 。 


图 13.11 积分 | g`’ (odr 
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图 13. 12 ”两 个 神经 元 的 双 稳 定 态 系统 的 能 量 等 值 线 图 。 纵 轴 和 横 轴 为 两 个 
神经 元 的 输出 。 稳 定 状态 位 于 左下 角 和 右上 角 ， 不 稳定 的 极点 位 
于 另外 两 个 角 。 箭 头 表 示 状 态 的 移动 。 移 动 一 般 不 垂直 于 能 量 的 
等 值 线 图 。( 经 美国 国家 科学 院 允许 ， 摘 自卫 了, Hopfield, 1984) 


把 离散 Hopfield 网 络 作为 按 内 容 寻 址 存储 般 

Hopfield 网 络 应 用 于 按 内 容 寻 址 存储 器 ， 我 们 预先 知道 网 络 的 固定 点 ， 它们 对 应 被 存储 
模式 。 但 是 ， 产 生 期 望 中 固定 点 的 网 络 突 触 权 值 是 未 知 的 ， 因 而 问题 在 于 如 何 确定 它们 。 
按 内 容 寻 址 存储 器 的 主要 功能 是 根据 模式 不 完整 或 有 噪声 的 表示 获取 存储 在 存储 器 中 相应 模 
式 (项 )。 为 了 以 简洁 方式 说 明 这 一 陈述 的 含义 ， 最 好 的 方法 就 是 引用 Hopfield1982 年 的 
论文 : | 

wx BAR ES PO Me “H.A Kramers & G.H Wannier Physi Rev 60, 252 
(1941)”， 一 个 善 通 的 按 内 容 寻 址 存储 器 ， 根 据 足 够 的 部 分 信息 能 检索 这 个 完整 的 存储 项 。 输 
A “& Wannier，(1941)” 可 能 就 足够 了 了。 理想 的 存储 器 能 处 理 错 误 并 且 甚 至 只 输入 “Wanni- 
er，(1941)” 就 能 检索 这 一 参考 文献 。 


因此 ， 按 内 容 寻 址 存储 器 的 一 个 重要 属性 就 
是 ， 在 给 出 存储 模式 的 信息 内 容 的 一 个 合理 子 集 
的 情况 下 检索 该 模式 的 能 力 。 此 外 ， 根 据 提供 的 
线索 能 够 覆盖 不 一 致 的 信息 ， 在 这 种 意义 下 按 内 
容 寻 址 存储 是 可 以 纠 错 的 。 基本 存储 空间 
按 内 容 寻 址 存储 器 (CAM) 的 本 质 是 映射 基 
本 存储 & 到 动态 系统 的 固定 点 〈 稳 定点 )Z 上 ， 
PAA 13. 13 描绘 的 那样 。 在 数学 可 以 把 这 个 映 





存储 向 量 空 间 
射 表示 为 图 13.13 递归 网 络 实现 的 编码 -解码 示意 图 
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EX, 

的 形式 。 从 左 回 右 的 箭头 代表 编码 操作 ， 而 从 右 回 左 的 箭头 代表 解码 操作 。 网 络 状 态 空间 的 吸 
引子 固定 点 为 网 络 的 基本 记忆 或 原型 状态 。 假 设 现在 呈现 给 网 络 一 个 模式 ， 这 个 模式 包含 基本 
记忆 的 部 分 ， 但 信息 是 足够 的 。 那 么 我 们 可 以 将 该 特定 模式 表示 为 状态 空间 中 的 起 点 。 原 则 
上 ， 倘 若 该 起 点 靠近 表示 待 检索 记忆 的 固定 点 〈 即 它 位 于 固定 点 的 吸引 盆 内 部 )， 则 系统 应 该 
随时 间 演 化 并 最 终 收敛 于 记忆 状态 本 号 。 在 该 点 上 全 部 的 记忆 由 网 络 生 成 。 结 果 Hopfield 网 
络 有 再 现 (emergent) 的 性 质 ， 该 性 质 帮助 它 检索 信息 和 处 理 错误 。 

在 使 用 McCulloch and Pitts (1943) 的 正规 神经 元 作为 基本 处 理 单元 的 Hopfield 模型 中 ， 
每 一 个 这 样 的 神经 元 具有 由 作用 其 上 的 诱导 局 部 域 所 决定 的 两 个 状态 。 神 经 元 i 的 “ 开 ” 或 
“点 火 ” 状 态 用 输出 值 z,= 王 十 1 表示， 而 “ 关 ” 或 “静止 ”状态 用 n=l 表示 。 因 此 对 由 入 
个 神经 元 构成 的 网 络 来 说 ， 网 络 状 态 由 向 量 


x -一 Re sTo" eo 
定义 。 由 于 z 一 土 1， 神 经 元 ;的 状态 表示 1 比特 信息 ， 而 NX1 的 向 量 xz RON 比特 信息 的 
二 进 制 字 。 | 
神经 元 j 的 诱导 局 部 域 w 定义 为 
vj = X wx: +d; (13. 40) 


其 中 5; 是 额外 施加 在 神经 元 ; 上 的 固定 偏 置 。 因 此 ， 神 经 元 7 根据 确定 性 规则 
加 +1, 如 果 >0 
本 如 果 vu; <0 
修改 它 的 状态 t K-KRAVUKERARREH 
x; = sgn(v;) 
其 中 sgn 是 符号 函数 。 如 果 wv 恰好 是 零 会 出 现 什么 情况 ?可 采取 任意 的 行动 。 例 如 ， 如 末 vwj = 
0， 可 以 设置 zi 一 士 1。 然 而 ， 我 们 将 使 用 如 下 约定 ， 如果 也 是 0， 神 经 元 j 保持 它 原 有 状态 ， 
不 管 它 是 开 还 是 关 。 就 像 将 在 后 面 说 明 的 那样 ， 这 一 假定 的 显著 意义 在 于 作为 结果 的 流 图 表 是 


Tj 


对 称 的 。 
把 离散 Hopfield 网 络 作为 按 内 容 寻 址 存储 器 的 操作 有 两 个 阶段 ， 即 存储 阶段 和 检索 阶段 ， 
如 下 所 述 : 


1. 存储 阶段 。 假 设 我 们 希望 存储 一 组 表示 为 {&, 14 二 1,2,…,M} 的 NN 维 向 量 〈 二 进 制 
Z) 集合 。 我 们 称 这 M 个 向 量 为 基本 记忆 ， 表 示 被 网 络 存储 的 模式 。 令 &,: 表 示 基 本 记忆 é&, 的 
第 i 个 元 素 ， 其 中 类 p==1,2,…,M。 根 据 存储 的 外 积 规则 ， 也 就 是 Hebb 学 习 的 基本 原则 的 推 
广 ， 从 神经 元 i 到 神经 元 7 的 突 触 权 值 定义 为 


wi = ~ (13. 41) 
使 用 1/N 作为 比例 常数 的 原因 是 为 了 简化 信息 检索 的 数学 表述 。 也 要 注意 式 (13.41) 的 学 习 规 
则 是 “ 单 射 ”(one shot) 计算 。 在 Hopfield 网 络 正 常 运行 中 ， 设 置 
w: 二 0， 对 二 所 有 (13. 42) 
这 意味 着 神经 元 没有 自 反 馈 。 令 W 表示 网 络 NXN 的 突 触 权 值 给 阵 ， 用 wj; 作 为 它 的 第 ji 个 
元 素 。 从 而 可 以 把 式 (13. 41) 和 式 (13. 42) 用 和 矩阵 形式 组 合 为 如 下 的 等 式 : 


w= — >) 667 MI (13. 43) 
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其 中 gE 表示 向 量 & 和 它 自身 的 外 积 ， 而 I 工 表 示 单 位 和 矩阵。 从 这 一 突 触 权 值 和 权 值 矩阵 的 定 
义 式 我 们 可 以 重新 确认 如 下 事实 : 

。 网 络 中 每 一 神经 元 的 输出 都 反馈 到 所 有 的 其 他 神经 元 上 。 

。 网 络 中 没有 自 反馈 (Bl ws 一 0) 。 

。 网 络 权 值 矩阵 是 对 称 的 ， 表 示 为 (BRAS. 21)) 

W = W (13. 44) 

2. 检索 阶段 。 在 检索 阶段 ， 一 个 称 为 探 针 (probe) WN FEE Eroe HK TRIN Hopfield 网 
络 作 为 它 的 状态 。 探 针 向 量 的 元 素 为 十 1。 它 典型 地 表征 网 络 中 基本 记忆 的 不 完整 或 品 声 形式 。 
然后 信息 检索 依照 动态 规则 进行 ， 在 该 规则 中 网 络 的 每 一 神经 元 7 随机 地 但 按 某 一 固定 比率 检 
测 作 用 在 其 上 的 诱导 局 部 域 v; (包含 任意 非 零 偏 置 5;)。 如 果 在 某 一 时 刻 v; 大 于 零 ， 则 神经 元 7 
将 切换 它 的 状态 到 十 1， 或 者 保持 在 该 状态 ， 如 果 已 经 是 十 1。 类 似 地 ， 如 果 wv; 小 于 零 ， 则 神 
经 元 7 将 切换 它 的 状态 到 一 1， 或 者 保持 在 该 状态 ， 如 果 已 经 是 一 1。 如 果 y 恰好 为 零 ， 则 不 
管 是 开 还 是 关 ， 神 经 元 7 都 将 保持 原 有 状态 。 因 此 ， 从 一 个 和 迭代 到 另 一 个 迭代 的 状态 更 新 是 确 
定 的， 但 是 选择 进行 更 新 操作 的 神经 元 则 是 随机 的 。 这 里 描述 的 异步 〈 串 行 ) 更 新 过 程 继续 下 
去 直到 没有 任何 进一步 的 变化 可 以 报告 为 止 。 那 就 是 说 ， 用 探 针 向 量 &ww。 开 始 ， 最 终 网 络 生 成 
一 个 不 随时 间 改 变 的 状态 向 量 >， 它 的 每 个 元 素 都 满足 稳定 性 条 件 


N 
y; 一 sgn( >) wy: +b), 7 = 1,2,’ N (13. 45) 
i=l 


或 者 其 矩阵 形式 
y = sen(Wy+ b) (13. 46) 
其 中 W 是 网 络 突 触 权 值 矩阵 ，b 是 外 部 施加 的 偏 置 向 量 。 这 里 描述 的 稳定 性 条 件 也 称 为 对 齐 
(alignment) 条 件 。 满 足 条 件 的 状态 向 量 y 称 为 系统 状态 空间 的 稳定 状态 或 固定 点 。 因 此 我 们 
可 以 作 这 桩 的 陈述 ， 当 检索 操作 异步 进行 时 ，Hopfield MAHA EMM BERS. 
表 13. 2 提出 对 Hopfield 网 络 操 作 包 括 存储 阶段 和 检索 阶段 的 步骤 的 一 个 小 结 。 


表 13.2 Hopfield 模型 小 结 


1 学习。 令 鱼 ,所 ，,…1 表示 已 知 N 维基 本 记忆 的 集合 。 使 用 外 积 规则 〈 即 Hebb 学 习 的 基本 原则 ) 计算 网 络 的 突 多 


1 M 
0, ji 
其 中 wj 为 从 神经 元 i 到 神经 元 j 的 突 触 权 值 。 向 量 & 的 元 素 等 于 土 1。 一 旦 它们 被 计算 出 ， 则 突 触 权 值 保 持 不 变 。 
2. 初始 化 。 令 名 ete 表 示 出 现在 网 络 中 的 一 未 知 N 维 输入 向 量 GRD). BURA 
xj(O) = &,probes 了 一 1 
初始 化 算法 ， 其 中 rO RAT j 在 时 间 n=0 时 的 状态 ， È; , probe 是 探 针 问 量 &rope 的 第 3 个 元 素 
3. 选 代 直 到 收效 。 根 据 如 下 规则 异步 地 〈 即 随机 并 且 每 次 一 个 ) 更 新 状态 向 量 x(z) 中 的 元 素 ， 
N 
xj(nt+1) = sgn( dS) wyzi(n)), j= 1,2. N 
i=} 


重复 这 一 迭代 直到 状态 向 量 x 保持 不 变 。 
A. 输出 。 令 xtxea 表 示 第 3 步 计 算出 的 固定 点 〈 稳 定 状 态 ) 。 作 为 结果 的 网 络 输出 向 量 y 为 
Y 一 Xfixed 
第 1 步 是 存储 阶段 ， 第 2 步 到 第 4 步 构成 检索 阶段 。 


-一 


例 2 三 个 神经 元 的 Hopfield 模型 的 再 现行 为 
为 了 说 明 Hopfield 模型 的 再 现行 为 ， 考 虑 图 13. 14a 所 示 的 三 个 神经 元 的 网 络 。 网 络 权 值 
Fe EA 
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图 13. 14 a) N= 二 3 个 神经 元 的 Hopfield 网 络 结构 图 ; b) 描绘 两 个 稳定 态 和 网 络 流 的 图 


0 一 2 42 
一 2 0 一 2 
十 2 一 2 0 

因为 它 满足 式 (13. 42) 和 式 (13. 44) 的 条 件 ， 所 以 是 合法 的 。 假 定 施加 在 每 个 神经 元 上 的 偏 
置 为 零 。 由 于 网 络 中 有 三 个 神经 元 ， 所 以 要 考虑 的 可 能 状态 有 2 一 8 种 。 这 8 种 状态 中 ， 只 有 
C(1,—1,1) 和 (一 1,1, 一 1) 这 两 种 状态 是 稳定 的 ; 其 余 的 6 种 状态 都 是 不 稳定 的 。 我 们 说 
这 两 种 特殊 状态 是 稳定 的 是 因为 它们 都 满足 式 (13. 46) 的 对 齐 条 件 。 对 状态 向 量 C1,—1,1), 


我 们 有 
0 -= 2 +21 (eel + 4 
mall EYEE 
2 =z 0j | 十 1 + 4 


Tl 
sgn( Wy) | =y 


FA 








硬 限 制 这 一 结果 得 到 


g = S94 =e 
Wy = = |—2 o ellep 
P =a oe —4 





硬 限 制 这 一 结果 之 后 ， 得 到 
al 
sgn(Wy) |+ 1 
=d 
因此 ， 这 两 种 状态 向 其 都 满足 对 齐 条 件 。 注 意 到 这 两 个 状态 互 为 相反 。 

此 外 ， 遵 从 表 13. 2 小 结 的 异步 更 新 过 程 ， 我 们 得 到 图 13. 14b 所 描绘 的 流 。 这 个 流 图 展示 
关于 网 络 中 直观 上 满足 条 件 的 两 个 稳定 状态 之 间 的 对 称 性 。 这 种 对 称 性 是 令 作 用 于 其 上 的 诱导 
局 部 域 恰好 为 零 的 神经 元 保留 在 原 有 状态 的 结果 ， 


二 
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图 13. 14b 也 显示 出 如 果 图 13. 14a 的 网 络 初始 状态 是 (1,1,1 )、( 一 1, 一 1,1) 或 (1， 
一 1, 一 1)， 那 么 在 一 次 迭代 之 后 它 将 收敛 于 稳定 状态 (1, 一 1,1)。 如 果 初 始 状 态 是 (一 1， 
一 1 一 1)、( 一 1,1,1) 或 (1,1, 一 1)， 则 它 将 收敛 于 第 二 个 稳定 状态 (一 1,1, 一 1)。 

因此 ， 网 络 有 两 个 基本 记忆 (1, 一 1,1) 和 (一 1,1, 一 1) 表征 这 两 个 稳定 状态 。 式 
(13. 43) 的 应 用 产生 突 触 权 值 矩阵 


fF = 1 0 0 0 —2 +2 
w==|-1 [+1,—-1,+1]+ + iej [-1,+1,-1]-4 0 1 0 == ~2 0 -2 
十 1 = 001 +2 —2 0 

















它 和 图 13. 14a 所 示 的 突 触 权 值 符合 。 

通过 检验 图 13. 14b 的 流 图 ，Hopfield 网 络 的 纠 错 能 力 是 显而易见 的 : 

1. 如 果 作 用 在 网 络 上 的 探 针 向 量 Sowe 等 于 (一 1, 一 1,1 )、(1,1,1) 或 (1, 一 1, 一 1)， 
则 作为 结果 的 输出 是 基本 记忆 (1, 一 1,1 )。 每 个 这 样 的 探 针 的 值 表示 一 个 和 存储 模式 相 比 的 
单一 错误 。 

2. 如 果 探 针 向 量 Eve MEF (1,1; 一 1)、( 一 1, 一 1, 一 1) 或 〈 一 1,1,1)， 则 作为 结果 的 
输出 是 基本 记忆 (一 1,1, 一 1)。 这 里 再 次 表明 ， 每 个 这 样 的 探 针 表示 一 个 和 存储 模式 相 比 的 
单一 错误 o 
伪 状 态 

就 像 式 (13. 44) 指 出 的 那样 ， 离 散 Hopfield 网 络 的 权 值 矩阵 W 是 对 称 的 。 因 此 W 的 特 
征 值 都 是 实数 。 然 而 ， 当 M 很 大 的 时 候 特征 值 通 常 是 退化 的 (degenerate)， 这 意味 着 用 
个 特征 向 量 有 同样 的 特征 值 。 通 过 退化 特征 值 联系 的 几 个 特征 向 量 构成 了 一 个 子 空间 。 此 
Sh, PUM W 退化 特征 值 有 等 于 零 的 ， 这 种 情况 下 的 子 空间 叫做 零 空间 。 零 空间 的 存在 
是 由 于 基本 记忆 的 数量 M 小 于 网 络 中 神经 元 数量 N 的 事实 。 零 空间 的 出 现 是 Hopfield 网 络 
的 内 在 特性 。 

权 值 矩阵 W 的 特征 分 析 ， 使 得 我 们 对 把 离散 Hopfield 网 络 作为 按 内 容 寻 址 存储 右 文 持 下 
列 观 点 (Aiyer 等 ，1990) ; 

1. 离散 Hopfield 网 络 将 探 针 向 量 投影 到 被 基本 记忆 向 量 扩张 成 的 子 空 间 以 上 ， 从 这 种 意 
义 上 说 ， 它 起 到 向 量 投影 器 的 作用 。 

2. 网 络 固 有 的 动力 学 把 结果 投影 向 量 驱动 到 单位 超 立 方 体 的 能 量 函 数 最 小 的 一 个 角 点 处 。 

单位 超 立方 体 是 N 维 的 。 扩 张 成 子 空间 的 M 个 基本 记忆 向 量 组 成 由 单位 超 立 方 体 确 定 的 
角 点 表示 的 固定 点 (稳定 状态 ) 的 集合 。 单 位 超 立 方 体 的 其 他 位 于 子 空间 内 部 或 附近 的 角 操 是 
潜在 伪 状 态 (spurious states〉 的 所 在 位 置 ， 也 称 为 伪 吸 引子 。 伪 状态 表示 Hopfield 网 络 中 不 
同 于 网 络 基本 记忆 的 其 他 稳定 状态 。 

因此 ， 在 设计 作为 按 内 容 寻 址 存储 器 的 Hopfield 网 络 过程 中 ， 我 们 面临 着 对 两 个 矛盾 第 
求 的 权衡 : 

。 需要 在 状态 空间 中 保持 基本 记忆 向 量 作 为 固定 点 。 

。 希望 有 少量 的 伪 状 态 。 

REHE, Hopfield 网 络 的 基本 记忆 不 总 是 稳定 的 。 而且， 可 能 出 现 由 伪 状 态 表征 的 不 同 
于 基本 记忆 的 其 他 稳定 状态 。 这 两 种 现象 倾向 于 降低 作为 按 内 容 寻 址 存储 器 Hopfield 网 络 的 
效率 。 

13.8 Cohen-Grossberg 定理 
在 Cohen and Grossberg (1983)， 给 出 评价 一 类 神经 网 络 的 稳定 性 的 一 般 原则 : 由 如 下 联 
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立 非 线性 微分 方程 组 描述 
Žu, = a; (uj) | b; (wu) 一 Topea 二 (13. 47) 
这 类 神经 网 络 允许 定义 一 Lyapunov wai ~ 
E= >> Derg: up co ` > fs (Ag! (AD dA (13. 48) 


其 中 or FE w (4) 相应 于 4 的 导数 。 为 了 使 式 (13. 48) 的 定义 有 效 ， 需 要 下 面 三 个 条 件 成 立 ， 
1. 网 络 的 罕 触 权 值 对 称 : 


Be (13. 49) 
2. a; (u; ) 满 足 非 负 性 条 件 ， 
a; (u;) == 0 (13. 50) 
3. JEZ TE A-4 h A pi (wu;) 满 足 单调 性 条 件 : 
/ d 
p; (Uj) i eae (13. 51) 


有 了 这 些 基础 ， 我 们 可 以 正式 地 陈述 Cohen-Grossberg 定理 ; 


如 果 非 线性 微分 方程 组 (13. 47) 满足 对 称 性 、 非 负 性 和 单调 性 ， 则 由 式 (13. 48) 描述 的 
Lyapunov 82 E wm XR 

dE 

dt 

— 2 Lyapunov 函数 下 的 基本 属性 具备 ， 系 统 的 全 局 稳定 性 从 Lyapunov 定理 1 推出 。 


<0 


Hopfield 模型 作为 Cohen- Grossberg 定理 的 特例 

对 一 个 连续 的 Hopfield 模型 ， 通 过 比较 式 (13. 47) 和 和 式 (13. 20)， 我 们 可 以 得 到 Hopfield 
模型 和 Cohen- Grossberg 和 定理 之 间 的 对 应 关系 ， 这 种 关系 如 表 13. 3 所 示 。 在 式 (13..48) 中 运用 
此 表 ， 就 可 以 得 到 连续 的 Hopneig 模型 的 Lyapunov RŽ: 


PE. >> yw. pi Cui) p; Cu) + Dig I; Jg; Cw) dv (13.52) 


其 中 非 线性 激活 函数 p (*) 由 式 (13. 23) 定 义 。 
表 13. 3  Cohen-Grossberg 定理 和 Hopfield 模型 的 对 应 关系 


Cohen- Grossberg 定理 Hopfield 模型 Cohen- Grossberg 定理 Hopfield 模型 


接 下 来 ， 我 们 得 到 如 下 的 观察 结果 ， 
l. pi (Ui) = T; 


2. | g; (v) dv = | dz 一 2; 


3 | wp (v) dv = | vdz = | ø; (ZX) dx 
基本 地 ， 关 系 式 2 和 3 通过 应 用 z 一 w (on) 得 到 。 这 样 ， 在 式 (13.52) 的 Lyapunov eK A h a H 
这 些 观 察 就 可 以 得 到 和 我 们 早先 描述 的 相同 的 结果 ; 参看 式 (13. 28) 。 然 而 ， 尽 管 p;(v) 必 须 是 
输入 ”的 非 减 函数 ， 但 为 使 式 (13. 52) 描 述 的 通用 Lyapunov 哺 数 成 立 ， 并 不 需要 具有 逆 。 
Cohen- Grossberg 定理 是 有 广泛 应 用 的 神经 动力 学 的 一 个 基本 原理 (Grossberg, 1990). 
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在 下 一 节 我 们 考虑 这 个 重要 定理 的 另 一 个 应 用 。 
13.9 E RAKARE 


在 这 一 节 中 ， 我 们 通过 学 习 盒 中 脑 状 态 (brain state in a box, BSB) 模型 来 继续 联想 记忆 
的 神经 动力 学 的 分 析 。 该 模型 首先 由 Anderson (1977) 描述 。BSB REER LETH te 
度 限制 的 正 反 馈 系 统 ， 该 模型 是 由 一 组 反馈 回 自身 的 高 度 互 连 的 神经 元 组 成 。 模 型 用 内 置 的 正 
反馈 来 放大 输入 模式 ， 直 到 模型 中 的 所 有 神经 元 饱和 。 这 样 ，BSB 模型 可 以 看 作 一 个 分 类 胡 ， 
在 该 分 类 器 中 ， 给 定 一 个 模拟 输 和 模式， 产生 一 个 由 模型 稳定 状态 描述 的 数字 表示 。 
用 W 表示 对 称 权 值 短 阵 ， 该 矩阵 的 最 大 特征 值 为 正 实数 。 用 x(0) 表 示 模 型 的 初始 状态 向 
量 ， 代 表 输 入 激活 模式 。 假 定 模型 中 有 N 个 神经 元 。 模 型 的 状态 向 量 是 NAN, WHENXN 
矩阵 。BSB 算法 由 下 面 两 个 方程 完全 定义 ， 
y(n) = x(n) + BWx(n) (13. 53) 
x(a + 1)= p(y(n)) (13. 54) 
其 中 8 是 一 个 称 为 反馈 因子 的 正 的 小 常数 ，x(z) 是 模型 在 时 刻 n 的 状态 向 量 。 图 13. 15a 显示 
式 (13.53) 和 式 (13. 54) 的 框图 的 组 合 。 方 框 W 代表 一 个 单 层 线 性 神经 网 络 ， 如 图 13. 15b 所 
示 。 激 活 函 数 o 是 一 个 作用 在 y (xz) 上 的 分 段 线性 函数 ，y EME yO Hj Pare, MF 
所 示 (参见 图 13. 16): 


dels 如 果 y; (n) >+1 
aj(n+1) = oly; ™)) =| wR — iyn) <1 (13. 55) 
—], wR y(n) <— 1 
st (13. 55) 限 制 BSB 模型 的 状态 向 量 处 于 中 心 在 原点 的 一 个 N 维 单 位 立方 体 中 。 
反馈 因子 单位 延迟 


ro 










， 。 输入 
Jl 。 向 量 


pais ee i D 
Pt tates s Rimai pie ibe PLA Fee ee ce 
ieee, Se Laden © Bes dea KAR + 
cin z bi Bee 


输出 


pany V 
PUR HE RE 非 线 性 


a) b) 


图 13.15 a) 盒 中 脑 状 态 (BSB) 模型 框图 的 组 合 ; bD 权 值 矩阵 W 表示 的 线性 联想 器 的 信号 流 图 

算法 如 下 进行 : 一 个 激活 模式 x(0) 作 为 一 个 初始 状态 辐 
量 输入 BSB 模型 ， 式 (13. 53) 用 来 计算 向 量 yY(0)， 式 (13. 54) 
用 来 截断 y(0) ， 获 得 更 新 状态 向 量 x(1) 。 接 着 ，x(1) 通 过 元 
(13. 53) 和 式 (13. 54) 循 环 得 到 x(2)。 这 个 过 程 一 直 重 复 直 到 
BSB 模型 达到 一 个 稳定 状态 ， 该 状态 代表 超 立 方 体 的 一 个 角 
点 。 直 觉 上 ，BSB 模型 的 正 反 馈 引 起 初始 状态 向 量 x(0) 的 网 
几 里 得 长 度 〈 范 数 ) 随和 迭代 次 数 的 增加 而 增加 ， 直 到 它 撞 到 
盒子 〈 单 位 超 立 方 体 ) 的 壁 上 ， 然 后 顺 着 壁 滑行 ， 最 终 停 在 
盒子 的 一 个 稳定 角 点 上 ， 在 这 里 它 继续 “推进 ” 却 不 能 脱离 
盒子 〈Kawamoto and Anderson 1985)， 这 就 是 该 模型 名 字 图 13. 16 BSB 模型 使 用 的 分 自 
的 由 来 。 线性 函数 





gy) 
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BSB 模型 的 Lyapunov pH RY 


重新 定义 BSB 模型 可 以 作为 由 式 (13. 16) 描 述 的 神经 动 
力学 模型 的 一 个 特例 (Grossberg，1990)。 为 了 看 到 这 一 点 ， 首 先 以 下 述 形 式 重 写 由 式 
(13. 53) 和 式 (13. 54) 描 述 的 BSB 算法 的 第 7 个 组 成 部 分 : 


padie OD A ph (13. 56) 
i=] 


系数 ci 由 
Ce = Os + Bw, (13.57) 

€X, FH 8, A Kronecker delta BR, M4H=i 时 为 1， 其 余 情 况 为 0; wi 是 权 和 矩阵 W 的 第 
ji ER. R3 56) 是 离散 的 时 间 形 式 。 为 了 进一步 处 理 ， 重 新 用 连续 时 间 形 式 写 出 它 的 
公式 

JOOD = HD + p( See), j= 12N (13. 58) 
其 中 仿 置 I; 对 所 有 的 7 WWA Oo AM. 为 了 应 用 Cohen- Grossberg 和 定理， 必须 进一步 把 式 
(13. 58) 转 换 成 加 性 模型 的 形式 。 我 们 可 以 通过 引入 一 组 新 变量 


v; (t) = Tea (13. 59) 
来 做 到 这 点 。 然后， 通过 式 (13. 57) 中 c 的 定义 ， 发 现 
Xx;(t) = Sant (13. 60) 
相应 地 ， 重 置式 (13. RN OER, i 
v; Ct) =— v; (t) + Ye olut)), fF =1,2,,N (13. 61) 


现在 ， 我 们 准备 把 Grossberg 定理 应 用 到 BSB 模型 上 。 通 过 比较 式 (13.61) 和 式 
(13. 47) ， 得 到 如 表 13. 4 所 示 的 BSB 模型 和 Cohen- Grossberg 定理 的 对 应 关系 。 因 此 ， 把 表 
13. 4 的 结果 用 于 式 (13. 48)， 就 得 到 模型 的 Lyapunov pam: 


E=-}> > pe + > no Conde (13. 62) 


其 中 g Cv) dé sigmoid RK oN EMS — 一 阶 导 数 。 最 后 ， 将 式 (13. 55) 、 式 (13. 57) 和 式 
(13. 59) 的 定义 代入 式 (13. 62) ， 就 能 用 原始 状态 向 量 定义 BSB 模型 的 Lyapunov (fet) 函数 
如 下 (Grossberg, 1990); 


E—— £5 Se =— Ex" Wx (13. 63) 
i=] j=l 
表 13.4 Cohen-Grossberg 定理 和 BSB 模型 的 对 应 关系 
re TE 


在 13. 7 节 中 对 Hopfield 网 络 Lyapunov 函数 的 估计 ， 假 定 模型 的 非 线性 sigmoid 函数 的 逆 的 导数 
存在 ， 此 条 件 是 通过 用 一 个 双 曲 线 正切 函数 来 满足 的 。 相 反 ， 在 BSB 模型 中 ， 当 第 7 个 神经 元 的 状 
态 变 量 是 十 1 或 一 1 时 ， 这 个 条 件 并 不 满足 。 尽 管 困 难 重重 ，BSB 模型 的 Lyapunov 函数 能 通过 Co- 
hen- Grossberg 定理 来 估计 ， 从 而 清楚 地 表明 这 个 重要 定理 可 以 普遍 应 用 。 


ww ai bbt. com DUONDDDD 





第 13 音 ”神经 动力 学 ' 447 


BSB 模型 动力 学 


在 由 Golden (1986) 进行 的 直接 分 析 中 ， 说 明 BSB 模型 实际 是 一 个 梯度 下 降 算 法 ， 使 得 
由 式 (13. 63) 所 定义 的 能 量 函 数 玉 达到 最 小 。 然 而 BSB 模型 的 这 个 重要 性 质 要 假设 权 值 矩 阵 W 
满足 下 面 两 个 条 件 : 

。 权 值 矩阵 W 是 对 称 的 ， 即 


W= W’ 
。 权 值 矩阵 W 是 半 正 定 的 ; 也 就 是 说 ， 关 于 W 的 特征 值 ， 我 们 有 
Amin 0 


其 中 Mu 是 W 的 最 小 特征 值 。 

这 样 ， 当 在 时 间 n 十 1 时 的 状态 向 量 x(n 十 1) 与 在 时 间 nn 的 状态 向 量 x(n) 不 同时 ，BSB 模 
到 的 能 量 函 数 正 随 2( 迭 代 次 数 ) 的 增加 而 减 小 。 更 进一步 ， 能 量 函 数 王 的 最 小 点 定义 BSB 模 
型 的 平衡 状态 ， 模 型 由 

x(n+ 1) = x(n) 
表征 。 换 名 话说， 像 Hopfield 模型 一 样 ，BSB 模型 是 一 个 能 量 最 小 化 网 络 。 

BSB 模型 的 平衡 状态 由 单位 超 立 方 体 的 特定 的 角 点 和 它 的 原点 定义 。 在 后 一 种 情况 〈 在 原 
点 )， 状 态 向 量 的 任何 波动 ， 无 论 是 多 么 小 ， 都 被 模型 中 的 正 反馈 放大 ， 因 此 引起 模型 从 原 操 
向 稳定 状态 漂移 ; 换 句 话说 ， 原 点 是 一 个 鞍点 。 对 超 立方 体 来 说 ， 要 使 它 的 每 个 角 操 作为 BSB 
模型 的 平衡 状态 ， 权 值 矩阵 W 必须 满足 第 三 个 条 件 (Greenberg, 1988): 

。 UBM W 是 对 角 优 势 的 〈dominant)， 甚 含义 是 

wy > lws j=1,2,%,N (13. 64) 


其 中 w, WW ij TOUR. 

为 了 使 平衡 状态 x 稳定 ， 也 就 是 为 了 使 单位 超 立方 体 的 一 个 特定 角 是 一 个 固定 点 豚 引子 
Cattractor) ， 在 单位 立方 体 中 必须 有 一 个 吸引 丛 NW(Cx)， 使 得 对 NGCx) 中 的 所 有 初始 状态 回 量 
x(0) ，BSB 模型 都 收敛 于 x。 为 了 使 单位 超 立方 体 的 每 一 个 角 点 是 一 个 可 能 的 点 吸引 子 ， 权 信 
答 阵 必须 满足 第 四 个 条 件 (Greenberg, 1988): 

。 权 和 矩阵 W 是 强 对 角 优 势 的 ， 表 示 为 

w > 2 lwelta, 当 了 一 1 2 (13. 65) 


其 中 a 是 一 个 正 的 常数 。 
这 里 讨论 的 重点 是 ， 如 果 BSB 模型 的 权 值 矩 阵 W 只 是 对 称 的 和 正 半 定 的 ， 单位 立方 体 中 
只 有 一 些 〈 不 是 所 有 ) 角 点 是 点 吸引 子 。 为 了 使 单位 立方 体 中 的 所 有 角 点 是 潜在 的 点 吸引 子 ， 
权 和 矩阵 W 也 必须 满足 式 (13. 65) ， 式 (13. 65) ARARA. 64). 


RR 

BSB 模型 的 一 个 自然 应 用 是 聚 类 (Anderson, 1995). 这 是 因为 单位 超 立 方 体 的 稳定 角 点 作为 有 
吸引 盆 的 点 吸引 子 ， 会 把 状态 空间 划分 为 相应 的 明确 定义 的 区 域 。 因 些 ，BNS8 模型 可 以 用 作 一 种 无 
监督 的 聚 类 算法 ， 其 中 单位 超 立 方 体 的 每 一 个 稳定 角 点 代表 相关 数据 的 一 个 “ 聚 类 ”。 由 正 反 馈 所 提 
供 的 自 放 大 (符合 在 第 8 章 描述 的 自 组 织 规则 D 是 聚 类 性 质 的 一 个 重要 成 分 。 

例 3 BR 

对 于 一 个 包含 两 个 神经 元 的 BSB 模型 。2X2 权 值 矩阵 W 定 文 为 

2 | 0.035 —0. | 
—0.005 0.035 
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此 权 和 矩阵 是 对 称 正定 的 ， 并 满足 式 (13. 65) 。 
13. 17 的 四 个 不 同 部 分 分 别 对 应 初始 状态 x(0) 的 四 种 不 同 的 赋值 ， 如 下 所 示 : 
(a) x(0) = [0.1,0. 2]? 
Cb) x(0) = [— 0. 2,0. 3]? 
Ce) x(0) = [— 0.8, — 0.4]? 
(d) x(0) = (0.6,0.1]? 


(—J, +1) (+1, +1) (—], +]) (+1, #1) 
. 








TRET Uhe t Erm 
€) d) 


图 13.17 BSB RATA OLS MA BAR. DRA TA Bae RPE TF RE : 
。 四 个 阴影 代表 模型 的 吸引 盆 
。 相应 的 模型 的 轨迹 用 红线 表示 
。 四 个 角落 ， 也 就 是 轨迹 终结 的 地 方 ， 用 黑色 表示 


图 中 阴影 区 域 是 标记 模型 的 四 个 吸引 贫 。 该 图 清晰 地 阐明 当 模 型 的 初始 状态 在 一 个 特定 的 
吸引 贫 时 ， 模 型 固有 动力 学 驱使 权 值 矩阵 WOn) 随 着 迭代 次 数 n 的 增加 而 增加 ， 直 到 网 络 状态 
x(n) 终 止 在 一 个 固定 点 吸引 子 ( 即 一 个 2X2 正方 形 的 角 点 )， 此 吸引 子 属 于 那个 吸引 盆 。 特 别 
有 趣 的 是 图 d 中 的 轨迹 : 初始 条 件 x(0) 在 第 一 象限 ， 然 而 轨迹 在 第 四 象限 终止 于 角 点 (十 1， 
一 1) ， 因 为 那 就 是 合适 的 吸引 盆 中 点 吸引 子 所 在 的 地 方 。 

在 这 个 例子 中 ， 具 有 二 神经 元 的 BSB 模型 的 方块 状态 空间 被 完全 地 分 为 四 个 不 同 的 吸引 
盆 ; 每 个 盆 包 括 方块 的 一 个 角 ， 代 表 具 有 最 小 能 量 的 稳定 状态 。 因 此 ，BSB 模型 可 以 视 为 自 联 
想 网 络 的 例子 ， 是 从 这 个 意义 上 说 的 ， 即 所 有 的 点 都 位 于 其 中 一 个 吸引 盆 ， 而 它们 每 个 都 与 一 
个 最 小 能 量 稳定 状态 点 相关 。 


13. 10 FARIS MBE 


到 目前 为 止 ， 在 我 们 讨论 的 神经 动力 学 中 ， 集 中 于 由 固定 点 吸引 子 所 刻画 的 非 线性 动力 学 
系统 的 行为 。 在 这 一 节 考 虑 一 种 称 为 奇异 吸引 子 的 男 一 类 吸引 子 ， 它 们 刻画 阶 数 高 于 2 的 某 种 
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> 


非 线 性 动力 学 系统 。 

一 个 奇异 吸引 子 表 现 出 高 度 复 杂 的 混乱 行为 。 使 研究 奇异 吸引 子 和 混沌 特别 有 趣 的 是 : A 
为 系统 运行 是 由 固定 规则 所 支配 的 ， 所 以 系统 是 确定 的 。 然 而 这 样 一 个 只 有 少数 几 个 自由 度 的 
系统 却 有 如 此 复杂 的 行为 以 至 于 它 看 起 来 是 随机 的 。 确 实 ， 随 机 性 在 以 下 意义 上 是 基本 的 : 一 
个 混沌 (chaos) 时 间 序 列 的 二 阶 统计 性 似乎 显示 它 是 随机 的 。 然 而 ， 不 像 一 个 真正 的 随机 现 
象 ， 一 个 混沌 系统 所 展示 的 随机 性 并 不 随 着 收集 信息 的 增加 而 减少 。 原 则 上 ， 一 个 混沌 系统 未 
来 的 行为 完全 由 它 的 过 去 所 决定 。 但 实际 上 上， 初始 条 件 选 择 的 任何 不 确定 性 ， 无 论 是 多 么 小 ， 
随 着 时 间 量 指数 增加 。 这 样 即 使 一 个 混沌 系统 的 动态 行为 在 短期 内 可 以 预测 ， 却 不 可 能 预测 系 
统 的 长 期 行为 。 因 些 ， 一 个 混沌 时 间 序 列表 现 这 样 一 种 矛盾 : 它 的 产生 是 由 一 个 确定 动态 系统 
支配 的 ， 然 而 它 看 起 来 却 是 随机 的 。 混 沌 现象 的 这 种 属性 最 初 是 Lorenz 在 发 现 一 种 吸引 子 时 
所 强调 的 ， 并 以 他 的 名 字 命 名 (Lorenz, 1963). 

在 一 个 非 线 性 动态 系统 中 ， 当 吸引 子 中 具有 相近 初始 条 件 的 不 同 轨 迹 随 着 时 间 增 加 而 逐渐 
分 离 时 ， 我 们 就 说 系统 具有 一 个 奇异 吸引 子 (strange attractor)， 并 且说 系统 本 身 是 混沌 的 
Cchaotic) 。 换 句 话说 ， 使 得 一 个 吸引 子 奇 异 的 本 质 属 性 是 对 初始 条 件 的 敏感 性 依赖 。 这 里 ， 敏 
感性 意味 着 如 果 两 个 相同 的 非 线 性 系统 开始 于 稍 有 差别 的 初始 条 件 ， 即 分 别 为 x 和 x 十 e， 这 里 
g 是 一 个 非常 小 的 量 ， 它 们 的 动态 状态 在 状态 空间 中 会 相互 获 开 ， 并 且 它 们 的 间隔 平均 而 言 将 
按 指数 增加 。 
混沌 动力 学 的 不 变 特 征 

两 个 主要 特征 分 数 维 (ractal dimensions) 和 Lyapunov 指数 ， 已 经 成 为 一 种 混沌 过 程 的 
分 类 器 。 分 数 维 刻画 一 个 奇异 吸引 子 的 几何 结构 。 术 语 “分 形 ” ractal) 是 由 Mandelbrot 
(1982) 提出 的 。 不 像 整 数 维 (如 二 维 平面 、 三 维 空间 )， 分数 维 并 不 是 整数 。 对 于 Lyapunov 
指数 ， 它 们 描述 吸引 子 的 胃 道 如 何 随 动态 系统 的 演化 而 运动 。 这 两 个 混沌 动态 系统 的 不 变 特征 
将 在 下 面 讨论 。 术 语 “ 不 变 ” 表 明 : 一 个 混沌 过 程 的 分 数 维 和 Lyapunov 指数 在 该 过 程 坐标 系 
统 的 光滑 非 线性 变换 下 保持 不 变 。 

分 数 维 
考虑 一 个 奇异 吸引 子 ， 它 在 d 维 状态 空间 的 动力 学 由 
x(n 二 1) = F(x(n)), n 一 0 1 2，… (13. 66) 
描述 ， 它 是 式 (13. 2) 的 离散 时 间 形 式 。 通 过 设置 :二 nAt， 这 很 容易 看 出 ， 其 中 At 是 采样 周期 。 
假定 At 足够 小 ， 我 们 可 以 相应 地 设置 


d 
ayn? = Apex nde + At) x(nAt) | 


这 样 ， 我 们 可 以 得 到 式 (13. 2) 的 离散 时 间 形 式 如 下 : 
全 [xCnAt + At) — xlnAt)] = F(x(nAt))， 对 很 小 的 At 


为 了 表示 方便 ， 令 At 一 1 并 对 项 进行 重新 排列 ， 得 到 
X( 十 1) = x(n) + FCx(n)) 
它 能 写成 式 (13. 66) 的 形式 ， 只 要 简单 地 重新 定义 向 量 值 函数 F(*) 吸收 x(n2。 
回 到 式 (13. 66) ， 假 定 我 们 在 吸引 子 的 轨道 上 或 附近 的 一 个 位 置 y 处 构造 半径 为 7 的 小 球 。 
那么 ， 我 们 对 吸引 子 可 以 定义 点 的 自然 分 布 (natural distribution) 如 下 : 


p(y) = lim =D) a¢y—x(n)) (13. 67) 
h sC) Æ d # delta 函数 ，N 是 数据 点 的 个 数 。 注 意 N 在 用 法 上 的 变化 。 自然 分 布 p(y) 对 
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一 个 奇异 吸引 子 扮演 的 角色 就 像 一 个 概率 密度 函数 对 一 个 随机 变量 那样 。 相 应 地 ， 我 们 可 以 随 


动态 系统 演化 定义 函数 f(y) 的 不 变量 为 多 重 积分 了 
f=| APPA (13. 68) 


一 个 感 兴趣 的 了 数 f(y) 是 使 我 们 能 衡量 当 小 球 半 径 r 趋向 于 0 时 ， 小 球 内 的 点 的 数目 是 如 何 变 
化 的 。 注 意 d 维 球 所 占 的 空间 体积 正比 于 r”， 因 此 ， 通 过 观察 在 状态 空间 中 吸引 子 上 的 点 的 密 
度 在 小 距离 范围 内 如 何 变 化 ， 我 们 可 以 了 解吸 引子 的 维 数 。 
球 的 中 心 y 和 在 时 刻 n 时 的 点 x(n) 之 间 的 欧 几 里 得 距离 是 上 y 一 xtn) ||. A, Boe 
| y—x(n) || <r 

或 等 价 地 

r— |ly—x(n) || >0 
则 点 xCz2) 在 半径 为 > 的 球 肉 。 因 此 ， 在 所 描述 情况 下 的 函数 f(x) 可 以 写成 一 般 形 式 





foo = (Sty Zee- lys )) (13. 69) 
ken 
其 中 g 是 一 个 整数 ，04*) 是 由 
0(z) 一 K Peai 


定义 的 Heaviside 函数 。 将 式 (13. 67) 和 式 (13. 69) 代 入 式 (13. 68), 得 到 一 个 新 的 依赖 于 q 和 
的 函数 Cl(g，r)， 如 下 所 示 : 
cn =| (Ho lyx | )) (x dle —xm)))dy 13. 70) 


因此 ， 利 用 delta 函数 的 第 选 (sifting) 性 质 ， 也 就 是 对 某 些 函数 g(.) 的 关系 
|. Asst iv = 2G 
HARAM., AUE ENAK Clg, DWF: 


N 
_lyvy_l _ B g 
ee 2 br 一 | x(n) — x(k) || >) a 


函数 Cl(g，7) 被 称 为 相关 函数 (correlation function)"， 用 文字 的 方式 定义 如 下 : 


吸引 子 的 相关 函数 用 Clg,r) 表 示 ， 是 用 来 度量 吸引 子 上 两 点 x(n) 和 x(k) 对 于 菜 一 整数 g 
以 距离 7 隔 开 的 概率 。 
在 式 (13. 71) 的 定义 中 数据 点 的 总 数 NN 假定 很 大 。 

相关 函数 CCo,r) 是 吸引 子 本 身 的 不 变量 。 虽 然 如 此 ， 在 实际 中 我 们 集中 在 了 很 小 时 Ca9， 
7) 的 行为 。 这 个 极限 行为 由 

Clgsr) œ ri (13.72) 

描述 ， 其 中 D, 称 为 吸引 子 的 分 数 维 ， 假定 它 是 存在 的 。 在 式 (13. 72) 两 边 取 对 数 ， 得 到 D, 的 
正式 定义 | 


jm log Clr) 
D, = tim lo (13. 73) 


然而 ， 由 于 通常 仅 有 有 限 的 数据 点 ， 半 径 r 必须 恰好 足够 小 ， 使 得 有 足够 的 点 落 在 球 内 。 对 一 
个 给 定 的 gs， 可 以 根据 CCg,7) 作 为 log r 的 线性 函数 的 斜率 确定 分 数 维 D, 
对 g 二 2， 分 数 维 D, 的 定义 具有 一 个 适宜 于 可 靠 计算 的 简单 形式 。 所 得 维 数 D 被 称 为 吸 
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引子 的 相关 维 数 (correlation dimension) (Grassberger and Procaccia，1983)。 相 关 维 数 反 映 
固有 动态 系统 的 复杂 性 ， 并 且 限 定 描述 该 系统 所 需 的 自由 度 。 
Lyapunov 指数 

Lyapunov 指数 是 描述 吸引 子 未 来 状态 不 确定 性 的 统计 量 。 更 具体 地 ， 它 们 量化 在 移 
向 吸引 子 时 邻近 轨道 相互 分 离 的 指数 速度 。 假 定 x(0) 是 初始 条 件 ，{x(n) ,2 一 0,1,2…} 是 
相应 的 轨道 。 考 虑 从 初始 条 件 x(0) 向 和 轨道 相 切 的 向 量 y(0) 方 向 上 的 一 个 无 穷 小 偏 移 ， 该 问 
量 的 演化 确定 被 扰动 轨道 {y(n) ,n= 二 0,1,2,…) 从 未 受 扰 动 轨道 {x(n),n 一 0,1,2…}) WER 
小 偏 移 的 演化 。 特 别 地 ， 比 值 y(n)/ 上 yn) 上 定义 轨道 从 x(x) 的 无 穷 小 偏 移 。 当 y(n) || > | 
y(0) || 时， 比值 y(n)/ || yO) | 为 无 穷 小 偏 移 的 增长 因子 ; 当 上 y(n) <l yo 时， 它 为 无 
穷 小 偏 移 的 缩减 因子 。 对 初始 条 件 x(0) 和 初始 偏 移 wm 二 y(0)/ || yCO) ||, Lyapunov 指数 被 定 
义 为 : 





EN S ll y(n) | 
ACx(0) ,a@) = lim 3 log{ Tyo | ) (13. 74) 


一 个 qd 维 混沌 过 程 共 有 d + Lyapunov 指数 ， 可 为 正 、 负 或 0。 正 的 Lyapunorv 指数 说 明 状 态 空 
间 中 一 轨道 的 不 稳定 性 。 这 种 情况 也 可 以 表述 为 ， 

。 正 的 Lyapunov 指数 导致 混沌 过 程 对 初始 条 件 的 敏感 性 。 

。 负 的 Lyapunov 指数 控制 轨道 中 膊 态 的 衰减 。 

。 一 个 为 0 的 Lyapunov 指数 表明 用 以 产生 混沌 的 国有 的 动态 系统 可 用 一 一 个 联 立 的 非 线 性 

微分 方程 组 描述 ， 即 该 混沌 过 程 是 一 个 流 。 

在 d 维 状态 空间 中 体积 依 exp(LGa 十 Miz 士 … 十 Ms)) 变 化 ， 这 里 工 是 未 来 的 时 间 步 数 。 因 此 
对 一 个 耗 散 过 程 ， 所 有 Lyapunov 指数 之 和 必须 是 负数 。 这 是 状态 空间 的 体积 要 随时 间 增 加 而 
缩减 所 必须 满足 的 条 件 ， 它 是 物理 实现 的 一 个 要 求 。 
Lyapunov 维 数 

给 定 Lyapunov 谱 AisAzstttsAa» Kaplan and Yorke (1979) 提出 了 一 个 奇异 吸引 子 的 Lya- 
punov 维 数 定义 如 下 : 


K 


24A 


p (13. 75) 
FR Taral 


Di =K 
其 中 五 是 满足 下 列 两 个 条 件 的 整数 ， 
> 和 DA <0 

通常 ，Lyapunov 463% D, 和 相关 维 数 D: 的 的 大 小 大 体 相同 。 这 是 混沌 过 程 的 一 个 重要 属性 。 也 
就 是 说 ， 虽 然 Lyapunov 维 数 和 相关 维 数 是 用 完全 不 同 的 方式 定义 ,但 对 一 个 奇异 吸引 于， E 
们 的 值 是 非常 接近 的 。 
混沌 过 程 的 定义 

在 整 章 中 我 们 说 到 了 混沌 过 程 ， 但 没有 正式 定义 它 。 根 据 我 们 对 Lyapunov 指数 的 了 解 ， 
可 以 给 出 如 下 定义 : 

一 个 混沌 过 程 是 由 一 个 非 线性 确定 系统 产生 的 ， 它 至 少 有 一 个 正 的 Lyapunov 指数 。 

至 少 有 一 个 正 的 Lyapunov 指数 是 对 初始 条 件 敏 感性 成 立 的 必要 条 件 ， 对 初始 条 件 敏感 是 
一 个 奇异 吸引 子 的 特点 。 
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最 大 的 Lyapunov 指数 也 定义 一 个 混沌 过 程 的 可 预测 范围 。 特 别 地 ， 一 个 混沌 过 程 的 短期 
可 预测 性 近似 等 于 最 大 Lyapunov 指数 的 倒数 CAbarbanel, 1996), 


13. 11 混沌 过 程 的 动态 重 构 


动态 重 构 可 以 定义 为 映射 的 辨识 ， 该 映射 对 未 知 的 mm 维 动态 系统 提供 模型 。 这 里 ， 我 们 
的 兴趣 是 对 一 个 已 知 为 混沌 的 物理 系统 产生 的 时 间 序 列 进行 动态 建 模 。 换 句 话 说 ， 给 定 一 时 间 
序列 《y(n)}w-1， 我 们 希望 建造 一 个 模型 来 捕获 产生 可 观察 y(n) 的 潜在 动力 学 。 如 我 们 在 前 面 
一 节 开 头 指出 的 那样 ，N 代表 样本 大 小 。 动 态 重 构 的 主要 动机 是 从 这 样 一 个 时 间 序 列 中 得 到 实 
际 意义 ， 从 而 绕 开 对 潜在 动力 学 的 详细 数学 知识 的 需要 。 感 兴趣 的 系统 一 般 太 复杂 以 至 于 不 能 
用 数学 方式 刻画 它 。 我 们 仅 有 的 可 用 信息 包含 在 对 系统 的 一 个 可 观测 量 进行 测量 所 得 到 的 时 间 
序列 内 。 | 

动态 重 构 理论 最 基本 的 结果 是 一 个 称 为 延迟 就 入 (delay embedding) 定理 的 几何 定理 ， 
该 定理 是 由 Takens (1981) 提出 的 。Takens 考虑 一 个 无 噪声 系统 ， 集 中 于 延迟 坐标 映射 〈de- 
lay coordinate map) 或 预测 (predictive) 模型 ， 上 映射 或 模型 是 由 表示 动态 系统 的 一 个 可 观测 
量 所 表示 的 时 间 序 列 构造 的 。 特 别 地 ，Takens 证 明 : 如果 动态 系统 和 可 观测 量 是 一 般 的 (ge- 
neric)， 那 么 从 一 个 d 维 光 滑 紧 流 形 到 RR“ 的 延迟 坐标 映射 在 该 流 形 上 是 微分 同 胚 (diffeo- 


morphism), XE d 是 动态 系统 状态 空间 的 维 数 (微分 同 胚 已 在 第 7 BPW). 
| 为 了 用 信号 处 理 术语 对 Takens 定理 作 解 释 ， 首 先 考虑 一 个 未 知 的 动态 系统 ， 该 系统 在 离 
散 时 间 的 演化 由 非 线 性 差分 方程 
x(a 十 1) = F(x(n)) (13. 76) 


描述 ， 其 中 x(n) 是 系统 在 时 刻 n 的 4 RAMS. FC) 是 一 个 向 量 值 范 数 。 这 里 假定 采样 周 
期 为 1。 系统 输出 的 时 间 序 列 {y(n)} 用 状态 向 量 x(n) 定 义 如 下 : 
| y(n) = g(x(n)) + vln) (13. 77) 
其 中 ge) ERREA, vd ROMER. RE uD 解释 为 在 观测 y(n) 中 的 不 完全 和 不 
精确 的 综合 效果 。 式 (13. 76) 和 式 (13. 77) 描 述 动态 系统 的 状态 空间 行为 。 根 据 Takens 定理 ， 
当 v(n)=0 时 多 变量 动态 系统 的 几何 结构 可 以 从 新 问 量 
yr(n) = [y(n) y(n — r), y(n — (D—1)r) J? (13. 78) 
构成 的 D EZERA yd) BB. HF eT KAR RH EBM. CREM, 
对 不 同 的 离散 时 间 n， 给 定 观 察 值 y(n)， 它 和 未 知 动 态 系 统 的 一 个 可 观察 值 〈 分 量 ) 有 关 ， 假 
€ D22d+1, ŒM DD 维 向 量 yx (n) 动 态 重 构 是 可 能 的 ， 其 中 d 是 系统 状态 空间 的 维 数 。 以 后 
我 们 就 称 这 个 陈述 为 嵌入 -延迟 定理 。 对 动态 重 构 来 说 ， 条 件 D 宇 24 十 1 是 充分 的 但 不 是 必要 
的 。 寻 找 合 适 DD 的 过 程 称 为 嵌入 。 能 够 实现 动态 重 构 的 最 小 的 整数 D 称 为 嵌入 维 数 ， 用 Dr 
表示 。 
从 和 人 -延迟 定理 具有 很 强 的 意义 : 重建 空间 中 点 yx (n) 一 yr Cn 十 1) 的 演化 服从 原始 状态 空间 
中 未 知 动态 系统 x(n) 一 x(n 十 1) 的 演化 。 也 就 是 说 ， 不 能 观察 的 状态 向 量 x(n) 的 许多 重要 属性 
可 以 在 由 yx (nm) 定义 的 重建 空间 中 毫 无 疑义 地 得 到 。 然 而 ， 为 了 获得 这 个 重要 结果 ， 我 们 守 要 
oe A SER De MUSE RARER r 的 可 靠 估 计 ， 如 下 综述 : 
1. 充分 条 件 DD 宇 24 十 1 使 得 解除 吸引 子 一 个 轨道 的 自 相 交 成 为 可 能 ， 这 是 出 现在 轨道 投影 
到 低 维 数 时 出 现 的 问题 。 嵌 人 维 数 Ds 可 以 小 于 2d 十 1。 推 荐 的 过 程 就 是 从 可 观测 数据 直接 信 
计 De. fait De 的 可 靠 方法 在 Abarbanel (1996) 中 描述 的 假 最 近邻 方法 。 在 此 方法 中 ， 系 统 
地 考察 数据 点 和 它们 的 近邻 ， 先 在 维 数 d= 二 1， 然 后 d& 王 2,…，, 如 此 等 等 。 我 们 借以 确立 明显 近 
邻 停止 时 的 条 件 ， 是 当 添 加 更 多 元 素 到 重 构 向 量 ge(Cz) 时 “不 被 投影 "， 这 样 就 获得 对 租 人 维 
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数 De 的 估计 。 

2. (BA, REIR-mA BHA RIA RARER r 的 选择 问题 。 事 实 上， 只 要 可 用 时 
间 序 列 无 限 长 ， 它 允许 用 任何 的 *。 然 而 ， 实 际 上 我 们 只 能 在 有 限 长 度 N 的 观察 数据 上 工作 。 
选择 r 的 正确 方法 是 认识 到 归 一 化 内 人 延迟 rz 对 y(2) 和 y(C2 一 rz) 应 足够 大 ， 使 它们 基本 上 独 
立 ， 这 样 才能 作为 重建 空间 的 坐标 ;但 也 不 能 使 它们 完全 独立 ， 以 致 没有 任何 联系 。 满 足 这 个 
要 求 的 最 好 办 法 就 是 选择 特定 的 使 得 y(z)7? 和 y(2 一 z) 之 间 的 互信 息 获 得 它们 第 一 个 最 小 值 
(Fraser，1989)。( 互 信息 在 第 10 章 讨论 。) 
递归 预测 

从 前 面 讨 论 中 知道 ， 动 态 重 构 问 题 可 以 解释 为 恰当 地 表示 信和 号 动力 学 〈 租 人 步骤 ) 和 建造 
一 个 预测 映射 〈 识 别 步骤 ) 。 因 此 ， 实 际 上 我 们 用 下 面 的 网 络 拓扑 结构 来 进行 动态 建 模 。 

。 短期 记忆 (例如 延迟 线 记 忆 ) AMMA, BRET MEN >(2) 和 它 的 延迟 形式 

来 定义 重建 向 量 yr (n)， 参 见 式 (13. 78)。 
。 训练 作为 单 步 预 测 器 (如 神经 网 络 ) 的 多 输入 单 输 出 (MISO) 自 适应 非 线 性 系统 ， 用 
它 识别 未 知 映射 f: R?>R', GMM: 
Yna +1) = f(yr(n)) (13. 79) 

式 (13. 79) 描 述 的 预测 映射 是 动态 建 模 的 中 心 问题 ， 一 旦 确定 ， 演 化 yr (n) 一 yr (n 十 1) 变 成 已 
知 ， 由 此 确定 未 知 演化 x(n) > x(n +1), 

现在 ,假设 有 一 个 严格 的 理论 来 帮助 我 们 决定 非 线 性 预测 器 是 否 已 成 功 地 识别 这 个 未 知 映 
St f。 在 线性 预测 中 ， 最 小 化 预测 误差 的 均 方 值 可 以 得 到 一 个 精确 的 模型 。 然 而 ,混沌 时 间 序 
列 不 同 。 同 一 个 吸引 子 的 两 个 轨道 在 每 次 采样 基础 上 都 有 很 大 的 不 同 ， 所 以 最 小 化 预测 误差 的 
均 方 值 对 一 个 成 功 的 上 映射 仅 是 必要 条 件 而 不 是 充分 条 件 。 cra 

动态 不 变量 〈 即 相关 维 数 和 Lyapunov 指数 )， 度 量 吸 引子 的 
全 局 属性 ， 所 以 它们 应 该 可 以 判断 动态 建 模 的 成 功 与 否 。 因 此 ， 
检验 动态 建 模 的 一 个 实际 方法 是 在 奇异 吸引 子 上 挑选 一 点 ， 然 后 FG | wae a 
反馈 输出 到 其 输入 成 为 一 个 自治 系统 ， 如 13. 18 图 所 示 。 这 样 一 
个 操作 称 为 办 代 预 测 或 递归 预测 。 一 旦 初始 化 完成 ， 该 自治 系统 。 图 13. 18 在 混沌 过 程 动态 里 





的 输出 就 是 动态 重 构 过 程 的 一 个 实现 。 这 当然 要 假定 预测 器 开始 niente 
时 已 被 正确 地 设计 。 
对 于 可 靠 动态 重 构 ， 我 们 可 以 把 重建 向 量 yx (n) 定 义 为 一 个 完全 的 m 维 癌 量 
yr(n) = [y(n) yn — 1) ayn —mt1)]' (13. 80) 
其 中 m 是 一 个 整数 ， 定 义 为 
m => Der (13. 81) 


这 种 重建 向 量 yx (n) 的 形式 比 式 (13. 78) 提 供 的 形式 对 可 预测 模型 提供 更 多 的 信息 ， 因 此 可 能 
产生 一 个 更 精确 的 动态 重 构 。 然 而 ， 这 两 种 形式 有 一 个 共同 的 特点 : CTA RAB ABER 
De 的 知识 唯一 定义 。 在 任何 情况 下 ， 明 智 的 方法 是 用 最 小 允许 的 值 D， 也 就 是 De， 来 最 小 化 
加 性 噪声 w(z) 对 动态 重 构 质 量 的 影响 。 
动态 重 构 是 一 个 不 适 定 的 过 滤 问 题 
现实 中 ， 动 态 重 构 是 一 个 不 适 定 的 逆 问题 。 之 所 以 这 样 说 是 因为 以 下 情况 极 有 可 能 发 生 ， 
即 破坏 对 于 逆 问 题 适 定 的 Hadamard 三 个 条 件 中 的 一 个 或 者 多 个 ， 这 点 在 第 7 章 明 确 地 表 
1. 由 于 一 些 未 知 的 原因 存在 条 件 可 能 被 破坏 。 
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2. 在 可 观察 时 间 序 列 上 ， 可 能 没有 充分 的 信息 足以 唯一 地 重建 非 线性 动态 系统 。 

3. 不 可 避免 地 出 现 加 性 噪声 和 观察 时 间 序 列 的 某 种 不 精确 都 会 增加 动态 重 构 的 不 确定 性 ， 
特别 地 ， 如 果品 声 水 平 太 高 ， 连 续 性 标准 也 可 能 被 破坏 。 

那么 怎么 使 动态 重 构 问 题 适 定 呢 ? 答案 在 于 把 包含 关于 输入 -输出 映射 的 先 验 知识 的 某 种 
形式 作为 主要 要 求 。 换 句 话 说 ， 在 预测 模型 的 设计 中 ， 为 了 解决 动态 重 构 问 题 需 要 引入 某 种 形 
却 的 限制 〈 例 如 输入 -输出 映射 的 光滑 性 ) 。 满 足 这 个 要 求 的 有 效 方 法 是 用 Tikhonov 的 正则 化 
理论 ， 这 也 在 第 7 章 讨论 。 

为 一 个 需要 考虑 的 问题 是 预测 模型 以 足够 精度 解决 道 问题 的 能 力 。 在 这 个 背景 下 ， 用 神经 
网 络 建造 预测 模型 是 合适 的 。 特 别 地 ， 多 层 感 知 器 或 径 向 基 函 数 网 络 的 通用 逼近 特性 意味 着 我 
们 利用 具有 适当 规模 的 这 种 或 那 种 神经 网 络 可 以 注意 重建 精度 的 问题 。 另 外 ， 由 于 刚才 说 明 的 
理由 我 们 需要 正则 化 的 解决 方法 。 理 论 上 ， 多 层 感 知 器 和 径 向 基 函 数 网 络 都 适宜 正则 化 的 使 
用 ; 但 如 第 7 章 所 解释 ， 我们 发 现在 径 向 基 取 数 网 络 中 包括 正则 化 理论 作为 它们 设计 的 整体 部 
分 ， 在 数学 上 易于 处 理 。 
案例 研究 : Lorenz 吸引 子 的 动态 重 构 


为 了 和 曾 明 动态 重 构 的 思想 ， 我 们 考虑 有 三 个 联 立 党 微分 方程 组 的 系统 。 该 系统 由 Lorenz 
(1963) 从 低压 大 气 热 对 流 的 偏 微分 方程 组 的 Galerkin 近似 抽象 而 来 ， 它 成 为 测试 非 线 性 动态 
系统 思想 的 一 个 主要 方程 组 。Lorenz 吸引 子 的 方程 组 为 


erty ax (t) + ay (t) 
dyCt) 
dt 


dz(t) = 
dt 


其 中 c，r> 和 如 是 无 量 纲 参 数 。 这 些 参 数 的 典型 值 是 o=10, b=8/3, r=28, 

图 13. 19 显示 在 两 个 具有 400 个 中 心 的 RBF 网 络 上 ， 使 用 基于 Lorenz WIIF roa E 
的 带 噪声 时 间 序 列 实施 迭代 预测 的 结果 。 信 品 比 是 十 25 分 贝 。 为 了 设计 正则 化 的 RBF 网 络 ， 
我 们 使 用 以 下 参数 : 

输入 层 的 大 小 m 二 20 


正则 化 参数 A=10~ 
40 





=— X(t)z(t) 二 +rr(t) — y(t) 


a(t) y(t) — bz Ct) (13. 82) 
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图 13. 19 在 Lorenz 数据 上 正则 化 迭代 预测 (N=400, m=20), SNR= 
十 25 分 贝 ， 实 曲线 为 实际 的 混沌 信号 ， 红 色 曲 线 为 重 爸 信 号 
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用 式 (13. 81) 决 定 输入 层 的 大 小 ; 使 用 第 7 章 描述 的 广义 交叉 验证 过 程 决定 正则 化 参数 。 

如 图 13. 9 所 示 ， 使 用 一 个 正则 RBF 网 络 ， 动 态 重 构 的 解 已 经 学 习 了 这 个 动力 学 系统 ， 是 
在 下 列 意义 上 说 : 在 迭代 预测 下 网 络 的 输出 十 分 近似 Lorenz 吸引 子 在 短 时 上 的 实际 轨迹 。 这 
个 结果 由 表 13. 5 中 的 事实 为 根据 ， 我 们 总 结 了 两 种 情况 下 的 Lorenz 数据 : 

(a) 信 噪 比 SNR=25 分 贝 的 Lorenz AZ. 

(b) 用 表 13. 5 的 带 噪声 Lorenz 时 间 序列 的 重建 数据 。 


表 13.5 用 Lorenz 系统 的 动态 重 构 试 验 的 参数 小 结 


Ca) 有 了 噪声 Lorenz BH: 25 分 贝 SNR (b) 用 图 13. 19 HARE Lorenz 数据 重 构 的 系统 
使 用 样本 数 : 35 000 产生 样本 数 GAHA): 35 000 
1. 归 一 化 符 人 延迟 ，r 一 4 1. ATER ABER, c= 4 
2. FRAZER, De=5 2. WAHR, De=3 
3. Lyapunov 指数. 3. Lyapunov 指数 ， 
à: =13. 268 9 A, =2. 5655 
Ag=5. 856 2 Az = — 0. 6275 
àa = — 3. 1447 A3 = — 15. 034 2 
As = — 18. 008 2 4. 可 预测 范围 约 为 61 个 样本 


15 一 一 47. 057 2 
4. 可 预测 范围 约 100 个 样本 
注 ， 所 有 的 Lyapunov 指数 的 单位 为 奈 特 / 秒 。 如 第 10 章 讨论 的 那样 ， 奈 特 是 测量 信息 的 一 个 自然 单位 。 同 样 ， 在 情形 
(b) 中， 动态 重 构 只 用 一 个 正 的 Lyapunov 阶 把 Lyapunov 谱 还 原 到 正确 的 个 数 3 (等 于 方程 的 个 数 )。 
用 带 噪声 数据 的 重建 数据 的 不 变量 和 用 无 噪声 Lorenz 数据 的 重建 数据 不 变量 相近 。 偏 差 的 绝 
对 值 是 由 于 嵌 人 重建 吸引 子 的 噪声 的 残留 影响 以 及 估计 程序 的 不 精确 。 图 13. 19 清楚 地 显示 动 
态 建 模 比 预测 有 更 多 内 容 。 这 幅 图 以 及 很 多 不 包括 在 这 里 的 其 他 图 像 都 显示 已 正则 化 RBF 关 
于 吸引 子 上 的 点 的 解 的 “和 鲁 棒 性 ”， 这 些 用 于 初始 化 迭代 预测 过程。 

从 图 13. 19 使 用 正则 化 得 出 下 面 两 点 观察 ， 是 值得 特别 注意 的 : 

1. 图 13. 19 的 重建 时 间 序 列 的 短期 可 预测 性 是 大 约 60 个 样本 。 从 无 噪声 Lorenz 吸引 子 的 
Lyapunov 谱 计 算 的 理论 可 预测 值 是 100 个 样本 。 试 验 和 无 噪声 Lorenz 吸引 子 的 预测 范围 的 偶 
差 仅 仅 显 示 用 来 实施 动态 重 构 的 实际 数据 里 面 存在 噪声 。 从 重建 数据 计算 的 理论 可 预测 值 范围 
是 61 (LH 13.5)， 这 非常 接近 短期 可 预测 性 的 试验 观察 值 。 

2， 一 日 超出 短期 可 预测 性 的 期 限 ， 用 图 13. 19 中 的 重建 时 间 序 列 开始 偏离 真正 Lorenz 吸 
引子 的 无 噪声 实现 。 这 基本 上 是 混沌 动力 学 的 一 个 现象 ， 也 就 是 对 初始 条 件 的 敏感 性 。 像 前 面 
提 到 的 那样 ， 对 初始 条 件 的 敏感 性 是 混沌 的 一 个 标志 。 


13.12 “小 结 和 讨论 


递归 网 络 中 稳定 性 问题 | 
在 本 章 中 ， 我 们 介绍 了 确定 神经 动力 学 系统 的 数学 基础 ， 用 式 (13. 2) 表 示 ， 为 了 便于 表示 
Ft — ie : 
Sx) = FaH) 


其 中 1 是 连续 时 间 ，x(z) 是 系统 的 状态 ; MFO) 是 一 个 向 量 值 的 函数 ， 它 的 每 个 元 素 作 用 于 
状态 x(2) 的 相应 的 每 个 元 素 。 

本 章 开 头 的 讨论 主要 集中 在 系统 稳定 性 这 个 问题 上 。 特 别 描述 了 Lyapunov 直接 方法 ， É 
为 就 有 关 x(z) 连 续 标量 函数 而 言 的 稳定 性 问题 研究 提供 了 强大 有 力 的 数学 工具 ， 称 之 为 Lya- 
punov 方程 。 这 个 方法 包括 两 个 定理 能 够 帮助 我 们 确定 一 个 给 定 的 日 治 非 线性 动力 学 系统 是 否 
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稳定 或 者 渐 近 稳定 。 这 里 有 适当 的 提示 语 : 这 个 方法 没有 教 我 们 如 何 找 到 Lyapunov 方程 ， 反 
而 ， 这 个 任务 需要 研究 人 员 的 精巧 设计 以 找到 它们 。 但 是 在 感 兴趣 的 很 多 实际 问题 上 ， AE E PKI 
数 能 作为 Lyapunov 方程 。 

联想 记忆 的 模型 

在 本 部 分 ， 我 们 讨论 了 两 个 联想 记忆 的 模型 ，Hopfield 模型 和 BSB 模型 ， 这 两 个 模型 有 
下 面 一 些 共同 特点 : 

。 都 使 用 相应 于 Hebb 学 习 规 则 的 正 反馈 

。 它们 都 有 能 量 (Lyapunov) 函数 ， 加 有 的 动力 学 以 选 代 方式 使 能 量 函 数 最 小 化 

。 它们 都 能 利用 吸引 子 动力 学 进行 计算 。 

很 自然 ， 它 们 各 上 自 的 应 用 领域 是 不 同 的 。BSB 模型 具有 固有 的 聚 类 能 力 。 另 一 方面 ，Hopfield 
模型 能 够 按 内 容 访 问 存 储 器 自我 操作 ; 但 是 ， 在 数字 通信 和 领域 中 它 的 误差 -修正 码 没 有 已 确立 
的 误差 -修正 编码 优秀 。Hopfield 网 络 的 模拟 版 本 同样 也 作为 解决 旅行 商 问题 的 一 个 模型 。 
进一步 讨论 Hopfield 模型 

Hopfield 在 1982 年 的 论文 对 神经 网 络 界 有 重大 影响 。 事 实 上 ， 它 是 复苏 20 世纪 80 年 代 
持续 的 神经 网 络 研究 兴趣 的 催化 剂 之 一 。 

BRB AE, FE mA PHT PRE: 

。 考虑 递归 网 络 ， 人 工 配 置 使 其 具有 对 称 突 触 权 值 ， 来 满足 式 (13. 21) 中 对 称 条 件 。 

。 明确 地 表达 能 量 肾 数 玉 ， 如 式 (13. 28) 中 定义 。 

。 WEHR EKS E A Lyapunov 方程。 

。 通过 和 迭代 最 小 化 能 量 函 数 来 证 明 网 络 能 够 以 几 个 稳定 点 展示 再 现行 为 。 
同时 在 一 篇 相对 短 的 文章 中 做 到 所 有 这 些 ， 这 也 就 使 得 Hopfield 在 1982 年 的 论文 更 加 优秀 和 令 人 印 
象 深刻 。 事 实 上 ， 它 也 是 过 去 十 年 在 物理 学 家 和 数学 家 中 产生 许多 令 人 兴奋 的 事 的 缘由 。 

简 言 之 ，Hopfield 回 我 们 展示 了 一 个 简单 的 ， 结 构 性 的 行为 产生 一 个 复杂 的 ， 时 变 非 线性 
动力 学 系统 是 可 能 的 。 这 种 动态 行为 的 可 能 性 之 前 被 其 他 人 研究 者 研究 过 ， 但 是 Hopfield Hie 
文 第 一 次 把 递归 网 络 的 再 现行 为 的 内 在 以 一 种 可 见 可 信 的 方式 融 汇 在 一 起 。 

适当 的 提醒 是 ， 以 下 想法 是 天 真 的 ， 即 认为 Hopfield 网 络 连 同 其 他 神经 网 络 界 的 联想 记 
忆 模 型 能 够 适用 于 人 类 记忆 (Anderson, 1995). 
作为 理解 哺乳 动物 大 脑 的 帮助 者 的 大 规模 计算 机 模型 

模型 化 大 脑 的 部 分 功能 ， 或 者 更 加 雄心 勃勃 的 ， 模 型 化 整个 大 脑 本 身 ， 这 是 一 项 具有 挑战 
性 的 任务 。 激 励 人 心 的 是 Izhikevich and Edelman 在 哺乳 动物 大 脑 结 构 和 动态 复杂 性 上 面 的 先 
驱 性 的 工作 。 在 他 们 2008 的 论文 中 描述 了 哺乳 动物 皮层 系统 的 大 规模 计算 机 模型 。 众 所 周知 ， 
丘脑 -皮层 系统 对 意识 从 以 下 意义 上 是 重要 的 ， 即 失去 丘脑 或 皮层 将 丢失 意识 ; 另 一 方面 ， 例 
如 ， 丢 失 海 马 体 或 者 小 脑 将 损害 大 脑 的 部 分 功能 ， 但 保留 意识 。 对 丘脑 -皮层 系统 的 关注 使 得 
Izhikevich- Edelman 模型 变 得 更 加 有 趣 ， 

整个 模型 的 主要 特点 包括 : 

1. 一 百 万 多 个 多 区 划 元 的 模拟 。 为 了 模拟 ， 神 经 元 经 校准 来 再 生 有 名 的 小 鼠 的 体外 反应 
在 模拟 中 Izhikevich (2007a) 之 前 关于 神经 元 峰值 动力 学 的 工作 是 突出 的 。 

2. 大 约 五 亿 个 突 触 ， 这 个 大 规模 突 触 模型 自动 展示 三 个 高 度 相 关 的 神经 活动 : 

1) 神经 动力 学 。 模 拟 的 峰值 动力 学 中 每 个 神经 元 和 每 个 树 状 突 的 区 划 可 以 用 下 面 两 个 微 


分 方程 描述 。 


CË = kov) mm) —utl (13. 83) 
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as = alb(v—v,) —u] (13. 84) 
其 中 C= 细胞 膜 电 容 
v 三 细胞膜 电位 
v, = if BB iz 


Uar = BEHT Be FBZ 
x 一 定义 所 有 向 内 和 向 外 电压 门 控 电流 差 的 回复 变量 
1 一 树 突 的 突 触 的 电流 
a 和 是 常数 。 假 定 细 胞 膜 电 位 大 于 峰值 的 极 大 值 的 时 候 ， 神 经 模型 启动 尖 脉 冲 (动作 电 
位 )， 并 且 模 型 中 的 所 有 变量 重 设 。 
2) 短 时 突 触 可 塑性 。 在 模型 中 ， 每 个 突 触 的 传导 率 长 度 ) 可 以 升 高 也 可 以 降低 ， 在 短 
时 间 规 模 内 分 别 代表 抑制 和 促进 。 
3) 长 时 峰值 定时 相关 可 塑性 。 这 个 模型 的 第 二 个 可 塑性 特点 ， 每 个 突 触 增强 或 者 抑制 ， 
依赖 前 突 触 神经 元 点 火 的 顺序 和 相应 的 后 突 触 神经 元 的 树 状 分 隔 。 
3. 泛 化 性 能 。 这 个 模型 具有 展示 未 建立 在 该 模型 中 的 正常 脑 组 织 动作 的 行为 制度 。 
赋予 了 这 些 神经 生物 学 特性 的 大 规模 计算 模型 说 明了 我 们 正 逐 渐 地 回 建 立 哺乳 动物 大 脑 的 
大 规模 计算 模型 接近 ， 这 样 的 模型 能 实现 实时 操作 。 


注释 和 参考 文献 


1. 一 个 非 自 治 (nonautonomous) 系统 由 状态 方程 
d 
dz 

EL, 初始 条 件 为 x(,) 二 wo。 对 一 个 非 自治 系统 ， 向 量 域 FCx(o ， 幻 依赖 于 时 间 :。 因 此 ,不 像 自治 系统 
那样 ， 我 们 一 般 不 置 初始 时 间 为 0 (Parker and Chua，1989) 。 

2. 一 般 来 说 ， 除 式 (13. 11) 外 一 个 非 线 性 动态 系统 的 全 局 稳定 性 还 需要 径 向 无 界 条 件 

Vix) ~ œ, |x] 一 co 
成 立 (Slotine and Li, 1991). HAA sigmoid 激活 函数 的 神经 网 络 构造 的 Lyapunov 了 消 数 通常 满足 该 条 件 。 
3. 我 们 给 出 一 个 吸引 子 的 严格 定义 如 下 (Lanford, 1981; Lichtenberg and Lieberman, 1992); 


RAMA FR GAB MRAP. BR: 
© MARE Rae ARE 

。 ARP, MAB AA CFP) ARK oe SM 

。 Mas DT A SR AB BAH 

。 机 不 能 被 分 成 两 个 互 不 相交 的 不 变 片 《piece) 


4. 集中 点 火 神 经 元 
式 (13.14) 的 加 性 模型 并 没完 全 抓 住 一 个 生物 神经 元 的 精 钥 。 特 别 地 ， 它 忽略 了 动作 电位 中 编码 的 时 序 信 
EL, 动作 电位 在 介绍 章节 中 给 出 简要 的 定性 描述 。Hopfield (1994) 描述 一 个 动态 模型 ， 通 过 考虑 一 个 集 
中 点 火 (Integrate and Fire) 神经 元 捕 提 动作 电位 。 这 样 一 个 神经 元 的 运行 由 一 阶 微分 方程 


Cua) =— UD — w) + iC) (A) 


描述 ， 其 中 wu() 二 神经 元 内 部 电位 
C= 神经 元 周围 细胞 膜 的 电容 
R= 细胞 膜 的 漏 阻 (leakage resistance) 
i(t) 二 由 另 一 神经 元 注 人 当前 神经 元 的 电流 
uo 一 当 iCt) 消 失 时 神经 元 减少 的 电位 
在 每 次 内 部 电位 u(z) 达 到 阐 值 时 产生 一 个 动作 电位 。 
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动作 电位 被 看 作 是 Dirac delta (冲击 ) AR, ERA 
a(t) = 8G — hn) (B) 


其 中 gs n=1,23, ARATE k MOMS SIE AAU, BUMMER CAD BG Me MARB k HS Rh ts 
流 ii (2) 的 行为 zt) 模型 化 为 


RO =—— Sin (2) + Dae: (2£) CC) 


其 中 w 为 神经 元 7 到 神经 元 & 的 突 触 权 值 ，r 是 神经 元 的 特征 时 间 常 数 ， 函数 gj (1) 由 式 (2) 定 义 。 

式 (13. 14) 的 加 性 模型 可 看 作 是 (C) 的 一 个 特例 。 具 体 地 ， 和 忽略 gj ORI (spiky) 性 质 ， 而 代 之 以 gi A 
一 个 光滑 函数 的 卷 积 。 这 是 因为 高 度 连接 在 一 个 合理 的 时 间 间 隔 内 式 (C) 右 边 的 总 和 会 有 许多 项 ， 并 且 我 
们 只 关心 神经 元 & 点 火 率 的 短期 行为 。 

5. Little 模型 CLittle, 1974; Little and Shaw, 1978) 和 Hopfield MM — FF {ë M AR MR. Am, EIA 
同 之 处 在 于 Hopfield 模型 用 异步 〈 囊 行 ) 动力 学 ， 而 Little 模型 用 同步 〈 并 行 ) 动力 学 。 相 应 地 ， 它 们 展 
示 不 同 的 收敛 性 (Bruck, 1990; Goles and Martinez, 1990). Hopfield 网 络 总 是 会 收敛 到 一 个 稳定 状态 ， 
而 Little 模型 总 是 会 收敛 到 一 个 稳定 状态 或 长 度 至 多 为 2 的 极限 环 。 所 谓 “ 极 限 环 ”是 指 网 络 状 态 空间 的 
长 度 小 于 或 等 于 2 的 环 。 

6 式 〈13.71) 定 义 的 相关 函数 C(q, 门 的 思想 在 统计 上 已 知 是 从 Rényi (1970) 的 工作 得 来 的 。 然 而 用 CEM 
画 一 个 奇异 吸引 子 是 在 Grassberger and Procaccia (1983) 中 提出 的 。 他 们 最 初 是 讨论 相关 维 数 g= 2 时 
Clqs7) 的 应 用 。 

7. 从 一 个 时 间 序 列 里 用 独立 坐标 来 构建 动态 系统 首先 由 Packard (1980) 提出 。 然 而 ， 这 篇 论文 并 没有 给 
出 证 明 ， 用 的 是 “导数 ” 藤 人 而 不 是 时 间 - 延 迟 符 人 人。 时间 -延迟 嵌 人 或 延迟 坐标 能 人 归功 于 Ruelle 和 
Takens。 特 别 地 ，1981 Æ Takens 发 表 了 一 篇 在 数学 上 很 深刻 的 时 间 - 延 迟 和 媒人 方面 的 文章 ， 它 应 用 于 吸引 
子 为 曲面 或 类 似 环 面 ; 也 可 以 参看 Maie(1981) 在 同一 杂志 上 发 表 的 同一 主题 的 论文 。Takens 的 论文 对 非 
数学 家 来 说 很 难 懂 ，Mané 的 更 难 懂 。 延 迟 坐 标 映射 的 思想 在 Sauer 等 (1991) 中 得 到 提炼 。 在 这 篇 论文 中 
采用 的 方法 是 对 Whitney(1936) 和 Takens(1981) 的 早期 结果 的 综合 和 扩展 。 

8. HREF Hopfield 模型 的 检索 阶段 是 因为 它们 趋 于 把 存储 的 模型 混合 起 来 。 相 应 地 ，Hopfield 模型 的 误 
差 -修正 能 力 由 于 伪 状 态 的 产生 而 降低 。 网 络 的 结果 作为 一 个 误差 -修正 系统 ，Hopfield 模型 不 是 那么 好 。 
这 种 情况 特别 是 在 数字 通信 和 领域 中 当 Hopfield 模型 对 比 已 确立 的 误差 -修正 编码 时 (Lin and Costello, 
2004) 。 后 者 编码 让 人 印象 深刻 在 于 《聪明 地 按照 制定 编码 方案 通过 插入 奇偶 校 验 ) 它们 能 够 接近 所 谓 的 香 
农 极限 ， 而 这 个 挑战 自从 香农 的 1948 关于 信息 论 的 经 典 论 文 就 引起 编码 理论 学 家 的 注意 。 

9 组 合 最 优化 问题 在 数学 中 以 几乎 最 难 而 出 名 。 这 类 最 优化 问题 包括 旅行 商 问 题 (TSP)， 它 被 视 为 一 个 经 
典 。 给 定 具 体 数 目的 城市 的 地 点 ， 假 定 在 一 个 平面 上 ， 找 到 起 点 和 终点 相同 的 最 短 旅行 路 径 。TSP 问题 很 
容易 陈述 ， 但 是 难于 精确 求解 ， 因 为 没有 方法 来 找到 最 优化 旅途 ， 达 不 到 计算 所 有 可 能 的 路 径 的 长 度 ， 然 
后 挑 到 最 短 的 。 它 被 称 为 NP 完全 《Hopcroft and Ullman, 1979), 

Hopfield 和 Tank 在 1985 年 的 一 篇 论文 中 基于 式 (13. 20) 中 N 对 一 阶 微分 方程 的 系统 提出 了 使 用 模拟 
网 络 的 应 用 ， 代 表 了 TS 问题 的 一 个 解法 。 具 体 地 ， 网 络 的 权 值 由 旅途 中 访问 过 的 城市 之 间 的 距离 决定 ， 
问题 的 最 优化 解 被 作为 式 (13. 20) 方 程 中 的 固定 点 。 此 处 困难 在 于 将 组 合 最 优化 问题 “映射 ”到 连续 〈 模 
拟 ) Hopfield 模型 。 模 型 遵守 最 小 化 能 量 (Lyapunov) 函数 ， 起 到 限制 一 些 硬 约 束 的 目标 郴 数 的 作用 。 如 
果 违 背 约 束 中 任 一 个 ， 解 将 视 为 无 效 。 在 Gee 等 (1993) 中 ,证 明了 Hopfield 模型 的 成 功 对 这 样 的 方式 极 
为 敏感 ， 即 为 联 立 的 方程 组 系统 的 Lyapunov 方程 的 构造 方式 。 


习题 
动力 系统 
13.1 对 于 状态 向 量 x(0) 作 为 一 个 动态 系统 的 平衡 状态 ， 重 述 Lyapunov 定理 ，。 


13.2 ”验证 图 P13. 2a 和 上 b 的 框图 分 别 对 应 神经 动力 学 方程 (13. 18) 和 (13. 19) 。 使 用 这 两 个 等 式 说 明 图 P13. 2 
中 的 两 个 框图 的 有 效 性 。 
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作用 在 输入 向 量 每 个 分 量 的 非 线性 集 突 触 权 值 矩阵 





作用 于 输入 向 量 每 个 





分 晤 上 非 线性 集 
K 
a) b) 
图 P13.2 
13.3 考虑 一 般 的 神经 动力 学 系统 ， 它 依赖 于 未 指定 的 内 部 状态 参数 、 外 部 动态 刺激 和 状态 变量 。 系 统 由 状 
态 方程 
du = ø; (Wusx), j = 1,2,0, N 


定义 ， 其 中 矩阵 W 代表 系统 的 内 部 动态 参数 ， 向 量 u 代表 外 部 动态 刺激 ,x 是 状态 向 量 ， 它 的 第 7 个 
CHA x, 表示 。 对 于 W，u 的 值 和 在 状态 空间 的 菜 些 运 行 区 域 x(0) 的 值 ， 假 定 系 统 的 轨迹 收敛 到 点 吸 
引子 (Pineda，1988b)。 讨 论 所 描述 的 系统 如 何 能 用 于 如 下 应 用 : 
(a) 连续 映射 器 ,um 是 输入 ，x(coe) 是 输出 。 
(b> 自 联想 记忆 ，x(0) 是 输入 ，x(oc) 是 输出 。 
Hopfield 模型 
13.4 考虑 由 5 个 神经 元 组 成 的 Hopfield 网 络 ， 它 需要 存储 以 下 三 个 基本 记忆 : 
6 = [i + +++ 加 一 [ 寺 1 一 1 一 二 十 一 可 & = [一 1, 十 1 一 1 十 1 十 1 
(a) 计算 网 络 的 5X5 突 触 权 值 矩阵 。 
(b) 用 异步 更 新 演示 所 有 三 个 基本 记忆 已， 怠 ， 包 满足 对 齐 条 件 。 
(c) 若 & 是 有 噪声 的 ， 它 的 第 二 个 元 素 极 性 反 转 ， 研 究 网 络 的 检索 性 能 。 
13.5 研究 同步 更 新 习题 13. 4 所 描述 Hopfield 网 络 的 检索 性 能 。 
13.6 (a) 证 明 
—[-1,-1,-1,-1,-17 & =[-1,+1,4+1,-1,417 & =[41,-1,+1,—-1,-1] 
也 是 习题 13. 4 所 描述 的 Hopfield 网 络 的 基本 记忆 。 这 些 基本 记忆 和 习题 13.4 中 的 基本 记忆 之 间 
有 什么 关系 ? 
(b) 假定 习题 13. 4 中 基本 记忆 & 的 第 一 个 元 素 被 掩 模 〈 即 减少 为 0) 。 确 定 Hoptield 网 络 所 产生 的 结 
果 模 式 。 比 较 这 个 结果 和 的 原始 形式 。 
13.7 考虑 由 两 个 神经 元 构成 的 简单 Hopfield DUS, PUR AY R AN F A 
w- a 
=]. 6 
每 个 神经 元 的 偏 置 为 0， 网 络 的 四 个 可 能 状态 是 
x = 1, +17 x = [一 1, 十 1]” x = [—1,—1]7 x = [+1,1] 
(a) 说 明 状 态 % 和 x 是 稳定 的 ， 而 状态 Xt 和 xs 成 为 极限 环 。 用 下 面 两 个 工具 来 说 明 : 
1. 对 齐 (稳定 性 ) 条件 
2. 能 量 函 数 
(b 刻画 状态 x 和 xs 的 极限 环 的 长 度 是 多 少 ? 
13.8 Hopfield 网 络 的 能 量 函 数 可 表达 为 : 
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其 中 mmx, 代表 由 


EMIS, Hs, 是 状态 向 量 x 的 第 j 个 元 素 ，&,; 是 基本 记忆 &, 的 第 7/ 个 元 素 ，M 是 基本 记忆 
个 数 。 

13.9 可 以 证 明 Hopfield 网 络 相 对 于 干扰 是 重 棒 的 ， 如 突 触 噪声 。 用 一 个 说 明 性 的 例子 来 证 明 这 个 说 法 的 有 
效 性 。 

13.10 第 11 章 中 的 Boltzmann 机 可 以 视 为 Hopfield 网 络 的 扩展 。 请 列 出 两 个 非 监 督学 习 系 统 的 异同 点 。 


Cohen-Grossberg 定理 
13.11 考虑 式 (13. 48) 定 义 的 Lyapunov K% E., WERI. 49) 至 式 (13. 51) 的 条 件 满 足 ， 证明 


13.12 在 13.9 节 ， 我 们 通过 应 用 Cohen-Grossberg 定理 导出 了 
BSB 模型 的 Lyapunov 国 数 。 在 推导 式 (13. 63) 时 ， 省 略 
了 一 些 细节 。 请 写 出 这 些 细节 。 

13.13 图 13.13 显示 非 单调 激活 函数 的 一 个 图 形 ， 该 函数 由 
Morita (1993) 提出 ， 这 在 注释 6 中 讨论 过 。 这 个 函数 在 
构造 Hopfield 网 络 时 用 于 代替 双 曲 线 正 切 丽 数 。Cohen- 
Grossberg 定理 适用 于 这 样 构造 的 联想 存储 器 吗 ? 请 说 明 





你 的 理由 。 
数据 表达 
13.14 根据 Chigirev and Bialek (2005)， 在 第 10 章 中 我 们 使 用 
了 优化 流 形 的 思想 描述 了 一 种 数据 表达 的 算法 。 给 是 一 图 P13.13 
些 不 带 标签 的 数据 作为 算法 输入 ， 算 法 可 以 产生 下 列 两 
种 结果 


。 一 些 列 的 流 形 点 ， 在 其 周围 是 已 聚 类 的 数据 ，。 

。 一 个 随机 图 ， 它 把 输入 数据 映射 到 这 个 流 形 上 . 

用 在 13. 10 节 中 描述 的 Grassberger-Procacia 相关 维 的 思想 ， 为 验证 Chigirev-Bialek 算法 作为 流 形 维 复 
杂 度 的 概率 佰 计 的 有 效 性 而 概述 一 个 实验 。 
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动态 系统 状态 估计 的 贝 叶 斯 滤波 


本 章 组 织 

本 章 围 绕 着 一 个 基本 而 重要 的 主题 展开 ; 给 定 一 组 观测 值 ， 估 计 动 态 系统 中 的 隐藏 状态 。 
本 章 的 内 容 结 构 如 下 : 

14. 1 节 为 概述 ， 引 起 读者 对 逐次 状态 估计 的 学 习 兴 趣 。 

14.2 节 讨 论 状 态 空 间 的 概念 和 状态 空间 的 各 种 建 模 方 法 。 

14. 3 节 介 绍 著 名 的 卡尔 曼 滤 波 器 ，14.4 节 将 讨论 保证 滤波 算法 数值 稳定 性 的 平方 根 方法 。 
14.5 节 阐 述 利用 扩展 的 卡尔 曼 泪 波 器 处 理 轻 度 的 非 线性 问题 。 

14.6 节 讨 论 贝 叶 斯 滤波 。 贝 叶 斯 滤波 算法 至 少 在 概念 上 为 动态 系统 状态 估计 提供 了 统一 
的 框架 。 而 卡尔 曼 滤 波 器 正 是 这 一 滤波 模型 的 一 个 特例 。 

14.7 节 对 贝 叶 斯 滤波 器 直接 的 数值 近似 问题 提出 了 数值 积分 法 则 。 在 此 基础 上 介绍 了 一 
种 新 的 滤波 器 一 一 数值 积分 卡尔 曼 滤 波 器 ， 它 的 思想 源 于 卡尔 晏 滤波 器 理论 。 

14.8 节 对 贝 叶 斯 滤波 近似 问题 提出 了 男 一 个 算法 。 这 一 算法 源 于 Monte Carlo 模拟 。 特 别 
地 , .提出 了 对 粒子 滤波 器 的 详细 处 理 。14.9 节 通 过 计算 机 实验 ， 比 较 了 扩展 的 卡尔 曼 泪 波 器 
和 粒子 滤波 器 的 性 能 。 

14. 10 节 讨 论 卡 尔 曙 滤 波 在 对 大 脑 各 部 分 的 建 模 中 扮演 的 角色 。 

14.11 节 总 结 并 讨论 了 整 章 内 容 。 


14. 1 引言 


在 第 13 章 介绍 的 神经 动力 学 系统 中 ， 我 们 关注 的 主要 问题 是 稳定 性 。 在 本 章 中 ， 我 们 将 
考虑 另 一 个 重要 的 问题 ， 即 给 定 一 组 基于 某 一 类 型 的 状态 观测 值 ， 如 何 估计 动态 系统 的 状态 。 
观测 发 生 在 离散 的 时 间 点 上 ， 这 并 非 是 为 了 数学 上 的 方便 ， 而 是 因为 观测 值 就 是 产生 在 离散 时 
闻 点 上 的 。 此 外 ， 状 态 不 仅 是 未 知 的 ， 且 对 于 观测 者 而 言 是 隐藏 的 。 因 此 ， 我 们 可 以 将 状态 信 
计 问 题 视 为 逆向 问题 。 

举 一 个 说 明 性 的 例子 ， 考 虑 一 个 动态 驱动 的 多 层 感知 器 ， 该 网 络 的 每 一 层 都 有 向 前 一 层 
反馈 回路 (例如 从 隐藏 层 到 输入 层 )。 网 络 的 状态 可 被 看 做 一 个 向 量 ,， 该 向 量 是 由 网 络 所 有 人权 
“ 重 ， 按 某 一 排序 方式 排列 构成 的 。 我 们 要 做 的 是 给 定 一 个 训练 样本 ， 利 用 逐次 状态 估计 理论 对 
网 络 权 重 向 量 进行 有 监督 的 调整 。 这 一 应 用 将 在 下 一 章 详细 讨论 。 然 而 ， 对 此 应 用 我 们 需要 一 
个 状态 估计 的 连续 过 程 ， 相 关 的 基本 原理 也 将 在 下 一 章 阐述 。 

逐次 状态 估计 理论 的 首次 严格 论述 ， 出 现在 1960 年 卡尔 曼 发 表 的 论文 中 。 为 了 便于 数学 
处 理 ， 卡 尔 曼 的 论述 基于 以 下 两 个 简单 假设 : 

1. 动态 系统 完全 是 线性 的 。 

2. 噪声 对 动态 系统 状态 有 扰动 的 作用 且 观 测 变量 是 加 性 的 、 服 从 高 斯 分 布 的 。 

基于 上 述 假设 ， 卡尔 曼 提 出 了 对 系统 中 未 知 状态 进行 最 优 位 计 的 递 与 算法 。 在 其 适用 领域 
中 ， 卡 尔 曼 滤波 器 毫 无 疑问 经 受 住 了 时 间 的 考验 。 

迄今 为 止 ， 逐 次 状态 估计 理论 仍 是 当下 热门 的 研究 领域 。 大 多 数 该 领域 的 研究 工作 集中 于 
解决 非 线 性 及 非 高 斯 空间 下 的 实际 间 题 。 在 以 上 一 种 或 两 种 情况 下 ， 通 常 无 法 得 到 最 优 估计 结 
果 。 因 此 ， 我 们 需要 解决 近似 估计 算法 的 实现 问题 。 所 面临 的 挑战 是 如 何 使 得 算法 既 有 理论 依 
据 又 具备 较 高 的 计算 效率 。 
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14.2 状态 空间 模型 


动态 系统 有 一 个 共同 的 基本 特征 : 系统 的 状态 。 该 特征 的 严格 定义 如 下 : 


一 个 随机 动态 系统 的 状态 被 定义 为 最 少量 的 信息 ， 这 些 信 息 包含 过 去 作用 于 该 系统 的 输入 
的 影响 ， 并 足以 完全 描述 系统 将 来 的 行为 。 


通常 情况 下 ， 状 态 不 是 直接 可 测量 的 。 而 是 用 间接 的 方式 测量 一 组 观测 值 来 反应 状态 对 外 
部 世界 的 影响 。 这 样 ， 未 知 动态 系统 的 特征 可 以 由 状态 空间 模型 描述 ， 它 包含 了 以 下 两 个 
AA: 
L RH CORA) 模型 ， 用 公式 表示 为 一 阶 马 尔 可 夫 链 ， 用 关于 时 间 的 函数 描述 状态 的 演 
变 。 公 式 如 下 : 
Xa = a, (Xn On) (14. 1) 
其 中 ，n 表示 离散 时 间 ， 向 量 x 表示 当前 状态 的 值 ， 向 量 x,+1 表 示 下 一 状态 的 值 ， 向 量 o 表 
示 动 态 品 声 或 过 程 噪声 ，a.(.,") 是 关于 两 个 参数 的 向 量 函 数 。 
2. 测量 (观测 ) 模型 ， 用 公式 表达 如 下 : 
Yn = b, (xX, Vn) (14. 2) 
向 量 y 表示 一 组 观测 值 ， 向 量 w 表示 噪声 的 测量 值 ，b,('，") 表 示 另 一 个 回 量 函数 。 
a, Ab, 的 下 标 n 用 于 包括 所 有 的 状态 ， 这 两 个 函数 是 随时 间 改 变 的 。 为 了 让 状态 空间 模 
型 更 具 实 用 的 价值 ， 在 研究 中 必须 严密 地 描述 系统 的 底层 物理 特征 。 
图 14. 1 是 单 信号 流 示 意图 ， 它 描述 了 由 式 (14.1) 和 式 (14.2) 定 义 的 状态 空间 模型 。 
图 14. 2 将 状态 随时 间 的 演变 描述 为 一 个 马尔 可 夫 链 。 在 两 幅 图 中 ， 模 型 的 时 间 域 表示 具有 以 
FĀ: 





图 14. 1 随时 间 变 化 的 非 线性 动态 系统 的 一 般 状态 空间 模型 ， 其 中 xz-!'1 表示 一 组 单 
位 时 间 延 时 





图 14.2 ”状态 随时 间 的 演变 ， 看 作 一 阶 马 尔 可 夫 链 
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。 数学 上 和 记 法 上 的 便利 。 

。 模型 与 物理 现实 的 紧密 联系 。 

。 解释 系统 统计 行为 的 有 意义 的 基础 。 

有 理由 做 出 如 下 假设 : 

1. 对 任意 的 2， 初 始 状态 z 与 动态 品 声 o 是 无 关 的 。 

2. 两 种 噪声 源 o, Aly, 是 统计 独立 的 ， 也 就 是 说 

ELwo.vel =0 ,对 于 所 有 的 nn 和 (14. 3) 

当 on Aly, 高 斯 相关 时 ， 上 述 等 式 是 o Ay, 相互 独立 的 充分 条 件 。 

值得 注意 的 是 ， 图 14. 2 中 的 马尔 可 夫 模 型 ， 从 根本 上 不 同 于 第 12 章 当 中 涉及 动态 规划 的 
马尔 可 夫 模 型 。 因 为 在 动态 规划 中 ， 状 态 对 于 观测 者 而 言 是 直接 可 以 获得 的 ， 而 逐次 状态 估计 
中 的 状态 对 于 观测 者 而 言 是 隐藏 的 。 
逐次 状态 估计 问题 的 描述 

ARH Yoo Yn 组 成 的 全 部 观测 值 的 记录 ， 计 算 在 统计 意义 上 最 优 的 隐藏 状态 Xs 的 估 


计 值 ， 将 这 些 估 计 值 用 逐次 的 方式 表示 出 来 。 


这 样 ， 这 一 描述 包含 了 两 个 系统 : 

。 未 知 的 动态 系统 ， 其 观测 量 y, 是 关于 隐藏 状态 的 函数 。 

。 逐次 状态 估计 器 或 滤波 器 ， 用 于 开发 观测 值 中 包含 的 状态 信息 。 

从 广义 上 说 ， 我 们 可 以 将 此 视 为 “编码 -解码 ”问题 。 观 测 值 可 祝 为 被 编码 的 状态 ， 而 由 
滤波 器 实现 的 状态 估计 过 程 则 可 视 为 对 观测 值 的 解码 。 

总 之 ， 当 有 > 时 状态 估计 称 为 预测 ， 当 有 一 2 时 称 为 滤波 ， 当 上 <7m 时 称 为 平 消 。 通 常情 
况 下 ， 因 为 平滑 器 使 用 更 多 的 观测 量 ， 所 以 在 统计 上 比 预 测 器 、 滤 波 器 更 为 精确 。 为 一 方面 ， 
预测 器 和 滤波 器 可 用 于 实时 应 用 ， 而 平滑 器 不 能 。 
状态 空间 模型 的 分 类 体系 
”解决 状态 估计 问题 ， 在 数学 上 的 困难 主要 取决 于 状态 空间 模型 的 实际 描述 。 因 而 产生 了 状 
态 空间 模型 的 分 类 体系 : 

1. 线性 、 高 斯 模型 。 该 模型 是 最 简单 的 状态 空间 模型 。 式 (14.1) 和 式 (14.2) 可 分 别 变 
换 为 

Ket) 一 AntisnXn +O, (14. 4) 
和 
y» = B,x, 十 Vn (14.5) 
ftrh, An EARE x, 到 状态 x, Hee. B, 是 测量 和 矩阵。 动态 噪声 o 和 测量 噪声 w 
均 是 加 性 的 ， 并 假设 为 统计 独立 的 均值 为 0 的 高 斯 过 程 ， 其 协 方差 矩阵 分 别 用 Q. 和 Q,.. 表 不 。 
用 式 (14. 4) 及 式 (14. 5) 定 义 的 状态 空间 模型 即 为 卡尔 曼 提 出 的 递归 滤波 器 所 使 用 的 模型 。 它 在 
数学 上 是 完 美的 ， 并 回避 了 任何 可 能 的 近似 问题 。 卡 尔 曼 滤波 器 相关 的 内 容 将 在 14.3 市 中 
介绍 。 

2. 线性 、 非 高 斯 模型 。 在 此 模型 中 ， 我 们 仍然 使 用 式 (14.4) 以 及 式 (14. 5) ， 但 动态 噪声 
cw, 和 测量 噪声 y, 都 被 假设 为 加 性 的 、 统 计 独 立 的 非 高 斯 过 程 。 这 两 个 过 程 的 非 高 斯 性 是 导致 
了 数学 上 的 困难 的 唯一 来 源 。 在 这 样 的 情况 下 ， 我 们 可 以 使 用 高 斯 求 和 近似 扩展 卡尔 曼 滤波 理 
的 应 用 范围 ， 总 结 如 下 : 


任何 描述 多 维 非 高 斯 向 量 的 概率 密度 函数 p(x)， 用 样本 值 x 表 示 ， 能 够 用 高 斯 求 和 公式 尽 可 
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能 地 逼近 
p(x) = Die N(x; or) (14. 6) 


对 整数 N 和 正 计数 器 ci，2》) ci 一 1。 对 一 1,2,…，N, 项 W(X， 也 ,) 表 示 均 值 为 郝 ， 协 方差 给 阵 
AD: 的 高 斯 CES) 密度 函数 。 


式 (14.6) 等 号 右边 的 高 斯 和 ， 随 着 项 数 N 的 增加 ， 一 致 收 伍 到 给 定 的 概率 密度 函数 
pz (XX), 且 对 所 有 的 i， 协 方差 矩阵 2; 趋 于 0 (Anderson and Moore，1971) 。 对 给 定 的 概率 密 
ERA p(x)， 计 算式 (14. 6) 的 高 斯 求 和 近似 ， 例 如 可 以 使 用 基于 期 望 最 大 化 (EM) 算法 的 程 
序 ; 该 算法 的 内 容 在 第 11 童 介绍 过 。 已 经 计算 得 到 近似 值 ， 可 以 使 用 一 组 卡尔 曼 滤波 器 ， 解 
决 用 线性 、 非 高 斯 的 模型 描述 的 你 次 状态 估计 问题 (Alspach and Sorenson，1972)。 然 而 ， 注 
意 到 高 斯 和 模型 的 项 ， 随 着 时 间 按 指数 级 增 大 ， 需 要 使 用 修剪 算法 。 
3. 非 线 性 、 高 斯 模型 。 在 复杂 性 增加 的 状态 空间 模型 的 分 类 体系 中 ， 第 三 个 模型 用 公式 
表示 如 下 : 
Xma 一 a,(x,) + @, (14. 7) 
和 
y, = b,Cx,) + y, (14. 8) 
假设 动态 噪声 on 和 测量 噪声 v, 都 是 加 性 和 服从 高 斯 分 布 的 。 这 里 就 是 解决 逐次 状态 估计 问题 
的 数学 上 困难 的 开始 。 计 算 该 问题 的 近似 解 ， 主 要 有 两 个 完全 不 同 的 方法 : 


1. 局 部 近似 。 在 非 线 性 滤波 的 第 一 种 方法 中 ， 式 (14.7) 的 系统 模型 的 非 线 性 也 数 a,(.:) 和 


式 (14. 8) 的 测量 模型 中 的 非 线 性 函数 b,(*)， 靠 这 两 个 线性 等 式 ， 近 似 于 状态 的 局 部 估计 值 。 
接着 应 用 卡尔 曼 滤 波 器 计算 近似 解 。14. 5 节 介 绍 的 扩展 的 卡尔 曼 滤 波 和 项， 是 对 非 线性 滤波 天 
的 局 部 近似 方法 的 例子 。 

2. 全 局 近似 。 在 非 线 性 滤波 的 第 二 种 方法 中 ， 解 用 贝 叶 斯 估计 结构 的 公式 表示 ， 通 过 这 
种 方法 ， 使 得 问题 固有 困难 的 解释 在 数学 上 吻 于 处 理 。 

3. 非 线 性 、 非 高 斯 模型 。 式 (14. 1) 和 式 (14. 2) 描 述 了 状态 空间 模型 的 最 后 一 种 类 型 ， 系 
统 模型 和 测量 模型 都 是 非 线性 的 ， 动 态 噪 声 on 和 测量 噪声 w, 不 仅 是 非 高 斯 的 ， 而 且 可 能 是 非 
加 性 的 。 在 这 种 情况 下 ， 粒 子 滤波 器 是 当前 选择 的 方法 ， 但 不 是 解决 逐次 状态 估计 问题 的 唯一 
14.3 FRB Rae 


式 (14.4) 、 式 (14.5) 定 义 了 卡尔 曼 滤 波 器 的 状态 空间 模型 。 此 线性 高 斯 模型 中 涉及 的 参数 
如 下 : 

。 状态 转移 和 矩阵 Ai,， 它 是 可 逆 的 。 

。 测量 矩阵 B,， 通 常情 况 下 它 是 长 方形 和 矩阵。 

。 高 斯 动态 噪声 oo BECERA FIALA HA AEE Qno 

。 高 斯 测量 噪声 wm ， 假 设 它 具 有 零 均 值 且 有 协 方差 矩阵 Qn 

假设 上 述 所 有 参数 均 已 知 。 并 给 定 一 组 观测 值 {(y,}i-:。 现 要 求 最 小 均 方 误差 意义 下 状态 x 
的 最 优 估计 值 。 我 们 将 滤波 的 讨论 限定 在 kn, BAM & 一 2 十 1 的 情况 。 
新 息 过 程 

处 理 此 类 优化 估计 问题 的 一 个 有 效 办 法 ， 是 利用 关于 观测 量 y 的 所 谓 的 新 县 过 程 。 其 定 
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义 如 下 : 

On = Yu 一 Yabo (14. 9) 
其 中 y,1,-! 是 在 给 定 至 nn 一 1 时 刻 (包括 ”一 1 NAD 所 有 观测 值 的 情况 下 ， 对 y, 的 最 小 均 方差 
的 人 和 估计。 实际 上 ， 我 们 可 以 说 : 


新 息 过 程 @, 是 包含 在 测量 值 y, 但 不 在 名 1,-1 的 预测 部 分 的 新 信息 的 测量 ， 因 为 y, TAR 
测 的 部 分 ( 记 为 ,1,_1) 是 完全 由 序列 (ye 人 1 决定 的 。 


新 息 过 程 有 如 下 重要 的 性 质 
性 质 1 与 观测 值 y, 有 关 的 新 息 过 程 @ 与 之 前 的 所 有 观测 值 yoy oy 正 交 ， 表 示 为 : 
Elany] =0, 1<k<n-l (14. 10) 
性 质 2 新 息 过 程 由 一 系列 相互 正 交 的 随机 向 量 构成 ， 表 示 为 ， 
ELea,oz |}=0, l<k<n-1 (14.11) 


性 质 3 代表 观测 数据 的 随机 向 量 序列 {yy ,yz ,… oy), 与 表示 更 新 过 程 的 序列 {o ，o ，…， 
0 } 一 一 对 应 。 因 此 ， 通 过 能 够 保证 线性 稳定 并 且 不 丢失 任何 信息 的 操作 ， 可 以 从 一 个 序列 得 
到 另 一 个 序列 。 因 此 可 写作 : 
人 (14. 12) 
鉴于 上 述 特性 ， 就 能 理解 为 什么 使 用 更 新 过 程 比 使 用 观测 值 本 身 要 简单 : 总 的 来 说 ， 观 测量 是 
相关 的 ， 而 与 之 对 应 的 更 新 过 程 中 的 部 分 是 无 关 的 。 


新 总 过 程 的 协 方差 矩阵 
从 初始 状态 x 开始 ， 我 们 可 以 用 式 (14. 4) 所 描述 的 系统 模型 表示 & 时 刻 的 系统 状态 : 


X; = Ant + DAs : 0; (14. 13) 


式 (14. 13) 表 明 状 态 FE x) 以 及 ;G2 ,0 的 线性 组 合 . 
根据 假设 ， 测 量 噪声 vn 与 初始 状态 x 以 及 动态 噪声 o 无 关 。 因 此 ， 在 式 (14. 13 两 边 同 


FE[xio7] =0, k,n 之 0 (14. 14) 
同 理 ， 我 们 可 以 从 测量 公式 (14. 5) 得 到 : 
E[ywv i] =0, 0<k<n-1 (14. 15) 
和 
Eyo] =0, O<k<n (14. 16) 


给 定 先前 的 观测 值 m ,…,y, 1， 我 们 可 以 从 测量 公式 (14. 5) 中 得 出 当前 观测 值 mw 的 最 小 均 方 估 
计 为 : 

Vain = B, Kp + Piet (14. 17) 
HP :是 给 定 先前 的 观测 值 yoy 后 所 对 应 的 测量 噪声 估计 。 因 为 根据 式 (14. 15), v, 
与 先前 的 观测 值 是 正 交 的 ， 因 此 估计 值 交 :为 零 。 于 是 化 简 式 (14. 17) 得 到 ， 


$1 = B, Xai (14. 18) 
将 式 (14. 5) 和 式 (14. 18) 代 入 式 (14. 9) ， 将 项 合并 得 : 
a, = Be. + Vn (14. 19) 
其 中 ， 新 引入 的 项 se ,-: 是 状态 预测 误差 回 量 。 其 定义 为 : 
Eni 一 Xa 一 niei (14. 20) 
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在 习题 14. 1 中 ，&,1, :与 动态 噪声 @, 以 及 测量 噪声 v, 均 是 正 交 的 。 由 此 定义 零 均 值 新 妃 过 程 
GQ, 的 协 方差 矩阵 为 : 


R, = ELa,a, | (14. 21) 
利用 式 (14. 19) ， 我 们 容易 得 到 : 
R, = B, P,e B; + Q,,. (14. 22) 
其 中 Qn ENEA v, 的 协 方差 矩阵 ， 新 引入 的 项 | 
Paint = EL Erp O41 _] (14. 23) 


为 预测 误差 协 方 差 矩 阵 。 式 (14. 22) 是 我 们 理解 卡尔 曼 滤 波 算法 的 第 一 步 。 
利用 新 息 过 程 进 行 滤波 状态 咎 计 : 预测 -修正 公式 
下 一 步 的 任务 是 利用 新 息 过 程 实现 任意 时 刻 i 系统 状态 x; 的 最 小 均 方 误差 估计 。 为 此 ， 给 
定 新 息 序列 w ,oz ，… Ons 我 们 首先 线性 展开 的 形式 表示 对 状态 x 的 估计 : 
其 ,| 。 = = die 2 Oe (14. 24) 


其 中 (Cah Æ i 时 刻 的 展开 式 系数 矩阵 的 集合 。 状态 预测 误差 与 新 息 过 程 满足 下 述 正 交 条 件 
《参见 习题 14. 3): 
Elena] = 0 4k=1,2,-nHi<n (14. 25) 

因此 ， 将 式 (14. 24) 代 人 式 (14. 25) 并 使 用 式 (14. 11) 所 描述 的 新 息 过 程 的 正 交 性 ， 可 得 : 

El x,a; | = C,,,R, 
其 中 ， 根 据 先 前 定义 ，R, 是 新 息 过 程 的 协 方差 矩阵 。 解 此 方程 的 系数 矩阵 Ce ， 得 到 ， 

C: =EL x:07 ] 及 入 
再 利用 式 (14. 24) 中 的 表示 方法 得 : 


Lie = -> Elx: a; Ry’ a, (14. 26) 
当 i 一 n 时 ， 为 滤波 过 程 ， 因 此 可 用 式 (14. 26) 描 述 该 该 状态 的 滤波 估计 为 : 


= >) Eixa Ri ou 一 3 Elx a? Ri o + Elx a JR on， (14. 27) 


让 等 式 的 第 二 行 ，& 一 的 项 从 求 和 中 分 离 了 出 来 。 为 了 将 式 (14. 27) 转 换 为 更 理解 的 形式 ， 我 
们 首先 用 式 (14. 26) 


Rah 一 > ELx,a7 |Ri as (14. 28) 
为 了 简化 式 (14. 27) 的 第 二 ， 我 们 引入 下 述 定义 ， 
G, = Elx. a] IR! (14. 29) 
由 此 ， 我 们 可 以 将 状态 滤波 估计 表示 为 下 述 递归 的 形式 : 
Kirin = Xn + GG, | (14. 30) 


30 (14. 30) 等 号 右边 的 两 项 意义 如 下 : 

1. & ,| 表示 单 步 预测 ， 其 表示 在 给 定 一 1 时 刻 前 (包括 n 一 1 HAD 所 有 观测 值 的 基础 
上 对 状态 x, 的 预测 估计 。 

2” Ga 表示 修正 项 ， 新 息 过 程 a, 表示 由 观测 值 y, JARRE SAS, RU mA 
7” G. AL, G 通常 被 称 为 卡尔 曼 增 益 ， 以 纪念 卡尔 曼 在 1960 年 发 表 的 文章 中 所 做 出 的 突 
出 贡献 。 

根据 上 述 两 点 ， 式 (14. 30) 在 卡尔 曼 滤 波 器 理论 中 被 称 为 预测 -修正 公式 。 
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卡尔 曼 增 益 的 计算 
式 (14. 30) 是 我 们 拥有 的 第 二 个 用 于 卡尔 曼 滤 波 器 递归 计算 的 公式 。 然 而 ， 为 了 让 这 一 
公式 具备 使 用 价值 ， 我 们 需要 计算 卡尔 曼 增 益 的 公式 。 该 公式 能 够 用 于 状态 估计 中 的 递归 
计算 。 
有 了 这 一 目标 ， 我 们 可 以 应 用 式 (14. 19) 得 : 
Elx al] = ELx, (Bg + Yn) | = ELX, ea |B; 
在 上 式 的 第 二 行 ， 我 们 利用 了 状态 x 与 测量 噪声 w 无 关 性 。 注 意 到 ， 根 据 正 交 原理 ， 状 态 预 
测 误差 向 量 8 14,1 与 状态 估计 各 1,-1 是 正 交 的 。 因 此 ，&841:-1 与 各 1:-1 外 积 的 期 望 为 等 ， 进 而 我 们 
Ae ft x, 不 影响 期 望 值 E[ Xa ]。 由 此 可 得 : 
E [xa] SE [sg ] BP =P, jn Be 
所 以 ， 对 式 (14. 29) PEx, a ] 一 项 使 用 这 一 公式 ， 我 们 可 以 用 预测 误差 协 方差 矩阵 Paji 
将 卡尔 曼 增 益 G, 表示 为 : 
G, = P, BIR; (14. 31) 
这 就 是 卡尔 曼 滤 波 器 递归 算法 所 需 的 第 三 个 等 式 。 
用 于 更 新 预测 误差 协 方差 矩阵 的 黎 卡 坦 (Riccati) 差分 方程 
为 了 完成 卡尔 曼 滤波 器 的 递归 计算 过 程 ， 我 们 需要 一 个 迭代 公式 ， 从 一 个 和 迭代 到 下 一 次 先 
代 中 更 新 预测 误差 协 方差 矩阵 。 
为 了 解决 这 一 状态 估计 过 程 中 的 最 后 一 步 ， 我 们 在 式 (14. 20) 中 用 ”十 1 BAR n R: 
Entlln 二 Xe 一 Mittin 
随后 我 们 发 现 用 含有 滤波 估计 的 项 表示 状态 的 预测 估计 是 有 益 的 。 故 而 将 式 (14. 282) FR n & 
换 为 n 十 1 并 应 用 式 (14. 4) ， 可 得 : 
i >> Eisma JR a = > EC CAs.sXs + @, oF Re os 
= (14. 32) 
== Ants. s = EL x, a IR; oe = A Snn 
式 (14. 32) 的 第 一 行 ， 因为 动态 噪声 mw 与 观测 值 是 相互 独立 的 ， 故 期 望 ELa， JINR. 对 滤波 
估计 名, ， 应 用 式 (14. 27) 的 定义 公式 的 第 一 行 ， 以 及 式 (14. 32) 和 对 状态 x, 的 预测 滤波 估计 的 
KAR, MA si, 的 公式 得 到 ， 
Eriin = (Antin Xa T On) — Anti,n Kate = Anticn (Xn — Snn) F Or = Ansty, Enn T On (14. 33) 
状态 x ,， 预测 估计 


其 中 ， 滤 波 误差 向 量 的 定义 为 ， l 
Enln ~ Xr m~ Kala (14. 34) 
因为 滤波 误差 向 量 8&1, 与 动态 噪声 o 是 无 关 的 ， 我 们 可 以 将 预测 误差 协 方差 矩阵 表示 为 ， 
Prin = ELeetiin Bettie) = Actin Pain Astin 十 QQ (14. 35) 


其 中 Q. ,为 动态 噪声 o 的 误差 协 方差 矩阵 。 在 式 (14. 35) 中 我 们 引入 了 最 后 一 个 参数 ， 称 为 滤 

P = Elern Ban | (14. 36) 
WT SEALER BRAK IAF 人 om 的 式 子 。 因 
此 我 们 首先 将 式 (14. 30) 代 入 式 (13. 34) 得 : 


fal, 一 Xn —X n|n—l 一 G, a, == Enin] (CQ， 
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然后 应 用 式 (14. 36) ， 得 到 : 
Pain = EL Cg — G0 ) Cente — G,a,)7 J 
= FL Enn- Ermi 一 GELa.gl — Ele 1 On |G? + G, ELa,a? |G? (14, 37) 
= Pi — G, Elan Erea | — El Ermi a |G) + G,R,G? 
接着 ， 我 们 注意 到 因为 1,- 1 与 新 息 过 程 m, 正 交 ， 于 是 可 得 : 
EL Enwi 0 | = ELCx, — Sanaa, | = EL x, x | 
同 理 ， 
Elo, Em ] = ELe, x ] 
利用 这 一 对 关系 以 及 式 (14. 29) 中 对 卡尔 曼 增 益 的 定义 ， 易 得 : 
G, Elana, | = Eleni 0 |G) = G,R,G; 
根据 式 (14. 37) 化 简 得 : 
P,, = Pam —G,R,G; 
最 后 我 们 应 用 卡尔 曼 增益 的 式 (14. 31) 以 及 协 方差 矩阵 R, 和 P, |,,-1 的 对 称 性 得 到 . 
P,, = Papi 一 G,B,P,, i (14. 38) 
至 此 ， 我 们 得 到 了 式 (14. 38) 和 式 (14. 35) 这 一 对 更 新 预测 误差 协 方差 抢 阵 的 重要 公式 。 特 别 是 
式 (14. 38) ， 其 通常 被 看 做 控制 论 中 著名 的 黎 卡 堤 方程 的 离散 形式 。 
这 一 对 等 公式 连同 式 (14. 32) 完 成 了 卡尔 曼 滤波 算法 的 公式 化 。 
RR BS DE UG BAG 
表 14.1 列 出 了 解决 卡尔 曼 滤 波 问 题 所 涉及 的 所 有 变量 和 人 参数。 滤波 器 的 输入 是 一 系列 的 
观测 值 m ,y ,…,y, ,输出 是 滤波 估计 名 1,;。 其 计算 过 程 是 递归 和 的， 详 见 表 14.2。 为 递归 计算 所 
需 的 初始 条 件 也 一 并 被 列 出 。 需 要 注意 的 是 表 14.2 中 ， 新 息 过 程 a, 的 计算 公式 是 根 
式 (14. 9) 和 式 (14. 18) 得 出 的 。 | 


表 14.1 EFRESEMSRSG 





W wn 
Rn | n—1 MX1 
Ê, | MX 1 


表 14.2 总 结 出 的 卡尔 曼 滤波 器 通常 被 称 做 协 方差 〈 卡 尔 曼 ) 滤波 算法 。 这 一 术语 来 源 于 
该 算法 需 在 一 次 完整 的 递归 计算 循环 中 传播 表示 预测 的 协 方差 矩阵 P,。: 。 
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表 14.2 基于 滤波 状态 估计 的 卡尔 曼 滤 波 器 总 结 


观测 值 = {yi ,yz ect yn} 
已 知 的 参数 
Sel WE PE = Antin 
测量 矩阵 一 B。 
动态 噪声 的 协 方差 矩阵 = 二 QQ,,， 
测量 噪声 的 协 方差 矩阵 二 Q,,， 
计算 ; n= 二 1]，2,，3,，… 
Gn =P, |n—1 B7 [Bp Pp | 2-1 BI Qon]? 
On 一 yn — Ba Rn in-i 
Reia Rajai Gii 
Rata In Antin Rn Ia 
Pp |n = Pra [a1 — Ga Ba Pr | 2-1 
Patt [a = Ant iy Pr rn Artl,n T Qun 
初始 条 件 : 
£:;o=ELx | 
Pio =EL E [Le Ox 一 EL DTI= To 
Mell, 是 对 角 阵 ， 对 角 线 上 的 元 素 均 为 8 1，6 是 一 个 很 小 的 数 。 





图 14. 3 是 卡尔 曼 滤 波 器 的 信号 流程 图 ， 其 中 = 一 工 表示 一 组 单位 延 时 。 从 这 幅 图 可 以 清楚 
地 看 出 卡尔 曼 滤波 器 是 一 个 双 回 路 反馈 系统 。 其 中 一 个 反馈 回路 包括 了 系统 〈 状 态 ) 模型 的 状 
态 转移 矩阵 A,，, ， 起 预测 作用 。 第 二 个 反馈 回路 包括 了 测量 模型 中 的 矩阵 B,， 起 修正 作用 。 
这 两 个 反馈 回路 一 起 作用 产生 对 x, 的 滤波 状态 估计 ， 即 输出 与 观测 值 ya 对 应 的 名 1,。 除 此 之 
外 ， 正 如 图 14. 3 描绘 的 那样 ， 卡 尔 曼 滤波 器 还 是 一 个 可 以 用 于 实时 应 用 的 系统 。 KRE, R 
们 也 有 包括 上 述 两 个 反馈 回路 的 全 局 的 反馈 回路 。 


ae m => 对 x, 的 滤波 
Ya y 


T 》 状态 估计 





图 14.3 卡尔 曼 滤波 器 的 信号 流程 图 ， 用 一 个 双 回 路 反馈 系统 来 描述 


由 于 卡尔 曼 滤波 器 的 关键 部 分 卡尔 曼 增 益 CG, 会 随时 间 n 的 改变 而 变化 ， 因 此 我 们 说 卡尔 
曼 滤 波 器 是 随时 间 变 化 的 滤波 器 。 即 使 在 原始 动态 系统 的 状态 空间 模型 具备 时 间 不 变 特性 的 情 
况 下 ， 这 一 性 质 依然 存在 。 


14. 4 发散 现 象 及 平方 根 滤波 


表 14. 2 所 总 结 的 协 方差 滤波 算法 容易 遇 到 数值 困难 ， 在 一 些 文献 中 已 经 充分 说 明 (Ka- 
minski 等 ，1971; Bierman 和 Thornton, 1977). | 

在 实际 应 用 中 ， 有 两 种 基本 的 途径 能 导致 数值 困难 。 一 个 是 数值 不 精确 。 具 体 来 说 ， 如 
式 (14. 38) 所 示 ， 和 矩阵 P,,, 是 两 个 非 负 定 和 矩阵 的 差 值 。 因 此 ， 除非 算法 中 的 每 一 次 循环 都 能 保 
证 足够 高 的 数值 精度 ， 才 有 可 能 使 得 计算 结果 的 矩阵 满足 对 称 性 和 非 负 定性 。 而 根据 
式 (14. 36) ,P,,, 是 协 方差 矩阵 ， 其 必须 满足 非 负 定性 。 因此 实际 应 用 与 理论 间 产 生 了 矛盾， 计 
算 过 程 中 数值 误差 的 存在 将 导致 卡尔 曼 滤波 器 行为 的 不 稳定 。 卡尔 曼 滤波 器 的 这 种 非 稳定 行为 
通常 称 为 发 散 现 象 。 
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在 实际 应 用 中 还 有 另 一 途径 可 能 导致 发 散 现 象 。 卡 尔 曼 滤波 器 的 导出 过 程 基 于 式 (14. 4)、 
式 (14.5) 所 描述 的 线性 高 斯 状态 空间 模型 。 而 这 一 模型 源 于 尚 在 研究 中 的 动态 系统 底层 理论 ， 
此 亦 可 能 导致 该 算法 的 不 稳定 。 虽 然 算 法 是 由 现实 的 观测 值 序列 驱动 的 ， 但 是 算法 的 数学 导出 
是 基于 假设 的 状态 空间 模型 。 因 此 ， 实 际 应 用 与 理论 再 次 产生 矛盾 ， 并 由 此 可 能 导致 前 述 的 算 
法 的 发 散 。 
考虑 到 这 些 实际 关系 ， 我 们 或 许 会 提出 这 样 的 疑问 : 
在 实际 应 用 中 ， 如 何 克 服 发 散 现 象 以 确保 卡尔 曼 滤 波 器 的 操作 是 稳定 的 呢 ? 
下 面 将 讨论 这 一 重要 问题 的 实际 解决 办 法 。 
€ Fy HUE 
一 个 数学 上 优美 且 计 算 上 可 行 的 ， 解 决 发 散 问 题 的 方法 就 是 利用 平方 根 滤 波 。 其 思想 是 对 
卡尔 曼 滤波 器 进行 修正 ， 在 算法 的 每 一 次 循环 中 使 用 数值 稳定 的 正 交 变换 。 具 体 而 言 ， 应 用 乔 
里 斯 基 分 解 可 以 将 P, ,转换 为 其 平方 根 的 形式 ， 由 此 可 得 : 
Py = Pi Pin (14. 39) 
其 中 ，Pi% 是 一 个 下 三 角 和 矩阵 ，P 是 其 转 置 。 在 线性 代数 中 ， 通 常 将 乔 里 斯 基因 子 Po 认为 
是 矩阵 P, ,的 平方 根 。 需 要 特别 注意 的 是 矩阵 积 P! 人 2 Pz 人 可 能 是 不 定 的 ， 因 为 任意 矩阵 和 其 转 
置 矩 阵 的 乘积 始终 是 非 负 定 的 。 正 因为 如 此 ， 即 便 存 在 数值 误差， 通常 乔 里 斯 基 系 数 PGR 
优 于 P.n EH. 
卡尔 曼 滤波 器 的 平方 根 实 现 
线性 代数 中 的 矩阵 分 解 引 理 是 平方 根 滤波 算法 的 关键 。 设 有 任意 两 个 工 XM EWE X 和 
Y, HE LSM, MERTES RRIF (Stewart, 1973; Golub and Van Loan, 1996): 
等 式 XXT 一 YYI RZ, SARYAAERHEKO, KA 
Y = xo (14. 40) 
为 了 证 明 这 一 引 理 ,我 们 可 以 将 和 矩阵 积 YY” 表示 为 
YY” = XO(XO)7 = XOO' X’ = xx’ 
在 上 式 的 最 后 一 行 ， 我 们 使 用 了 正 交 和 矩阵 @ 的 性 质 ， 即 
正 交 纸 阵 与 其 转 置 的 积 是 单位 撼 阵 
由 这 一 性 质 可 推出 ， 
o'=0' (14. 41) 
BI TF ee RS TCHR BEE. 
有 了 上 述 引 理 ， 我 们 可 以 开始 讨论 卡尔 曼 滤 波 器 的 平方 根 协 方差 实现 问题 。 首 先 ， 我 们 应 
用 式 (14. 31) 及 式 (14. 38) 中 对 增益 矩阵 G, 的 定义 ， 可 得 : 
Paa = Pi 一 Pre B; Ro’ B, Ppi (14. 42) 
其 中 R, 的 定义 由 式 (14. 22) 给 出 。 为 了 表示 的 方便 将 上 式 重 写 为 : 
R, = B,P, 1B + Q.a 
观察 式 (14. 42) 重 新 用 公式 表示 出 的 黎 卡 提 微分 方程 ， 我 们 可 以 发 现 等 号 的 右 端 包含 了 3 个 不 
同 的 矩阵 项 .: 
MXL 维 的 矩阵 :预测 状态 P,1,-1 的 协 方差 矩阵 
LXM WIERF: REP,- AMEE E B, 
LXL 维 的 矩阵 : 新 息 过 程 的 协 方差 矩阵 R， 
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在 牢记 这 三 个 矩阵 项 不 同 维 数 的 同时 ， 用 一 致 的 形式 将 其 整合 在 一 个 NXxN WAR 
阵 中 


er 


nv Ba P n\w—1 Pj. Ba : Paint 
其 中 ， 在 第 二 个 等 号 后 ， 加 人 了 关于 R, 的 式 子 。 式 (14. 33) 中 的 矩阵 为 NXNN ERIE, N= 
LIM. WRENN, PHAR H, 是 非 负 定 的 。 因 此 我 们 对 其 进行 乔 里 斯 基 分 解 ， 可 得 : 

Qi? B ,1f2_， Q! OT 

et ee a eee 0 

Hp, PR- EDIZ P,1,-1 的 平方 根 ，O OSH. 
式 (14. 44) 等 号 右边 的 矩阵 乘积 可 理解 成 矩阵 X 及 其 转 置 X 的 乘积 。 由 此 可 知 其 满足 应 

用 矩阵 分 解 引 理 的 条 件 ， a a 40) 得 : 


R, : B, P, 一 1 人， + B, P, 1B) : B, P nlm—1 
p | (14. 43) 


Oa a E : OF | 
Rae ee a: @, = | ----""-- er (14. 45) 
| O | Von © Yoon 
SSS a Se 
X X. 


sh rh 46M @, JEZER, ERK, 0, 与 X, 的 乘积 Y, 为 下 三 角 和 矩阵 ， 即 位 于 YY, 主 对 角 
线 上 方 的 元 素 均 为 零 。 因 此 ，@, 通常 称 作 正 交 旋转 。 利 用 @, 正 交 的 特性 ， 可 将 式 (14. 45) 展 


FA: 
We : B, PHZ we : oT Y TE OT Vis. ; OZ., 
ang QE j OJ [han O] [Ee] aa 
O : Pii Pi B7 : Pr Yate Ys O : Yb, 
一 一 一 一 一 一 一 一 一 一 一 
X, X Y, y7 
展开 和 抢 阵 的 乘积 X,XT 和 YY,YT， 建 立 等 式 两 边 相 对 应 矩阵 块 之 间 的 相等 关系 ， 得 到 三 个 式 子 : 
Q., + BP Br = Yin Yina (14. 47) 
B, Pp: = Vie Yo (14. 48) 
Pai = Ya, aVb ion Vo 2 (14. 49) 


式 (14. 47) 等 号 左边 的 项 可 视 为 协 方差 矩阵 R,， 其 可 被 分 解 为 RI?*Rs”。 因 此 ， 式 (14.47) 中 的 
第 一 个 未 知 项 满足 : 


Yia = R!” (14. 50) 
接着 ， 将 Yi 的 值 代 入 式 (14. 48)， 解 出 Yorn ， 由 此 我 们 得 到 了 第 二 个 未 知 项 的 表达 式 : 
Youn = Pu BIR,” (14. 51) 
根据 前 面 卡尔 曼 增 益 G 的 定义 和 式 (14. 31) ， 也 可 以 将 Yn, RRN: 
Yu. = G,R,” (14. 52) 


再 者 ， 将 式 (14. 51) 中 Ya 的 值 代入 式 (14. 49), HABER YazYa,。， 然 后 应 用 式 (14. 42), 
我 们 可 以 得 到 : 

Yoon X22. = Pira a B; R, B, Pami = Pain 
将 协 方差 矩阵 P,,, 分 解 为 Py2PI 仁 ， 可 以 得 到 第 三 个 未 知 项 : 


Yoz = Pale (14. 53) 
在 确定 了 Y, 的 三 个 非 零 子 和 矩阵 后 ， 我 们 可 兰 换 式 (14. 45) 中 的 未 知 子 和 矩阵 ， 得 到 : 
Qin | Ba Prr RY Q. 
a ier eae A eo 


在 最 终 得 到 的 式 (14. 54) 中 ， 仔 细 观 察 我 们 可 以 区 分 两 个 定义 清楚 的 数值 矩阵 : 
1. AER, BERETTA. 54) 等 号 左 侧 的 数值 矩阵 。 它 与 @, 相 乘 的 目的 是 逐个 元 
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RHETT B, Piho WEER B, 和 测量 噪声 的 协 方差 矩阵 Q,., 均 是 已 知 量 。 平 方 根 
Pi-: 经 数值 更 新 后 也 是 已 知 的 。 因 此 ， 在 盖 时 刻 ， 组 成 前 矩阵 的 所 有 子 矩 阵 均 是 已 知 的 。 

2. 后 给 阵 。 此 矩阵 是 位 于 式 (14. 54) 等 号 右 侧 的 数值 矩阵 。 它 是 由 前 矩阵 经 正 交 旋转 消去 
B, Ps-! 后 得 到 的 下 三 角 和 矩阵 。 特 别 地 ， 在 前 和 矩阵 中 所 包含 的 平方 根 Qi 产生 了 两 个 有 用 的 
和 矩阵: 

。 和 矩阵 Ri ， 表 示 了 新 息 过 程 @, 的 协 方差 矩阵 的 平方 根 。 

。 和 矩阵 的 乘积 G,R* ， 用 于 计算 卡尔 曼 增益 、 

另 一 个 由 计算 后 矩阵 而 得 到 的 重要 的 矩阵 是 滤波 误差 协 方差 矩阵 的 平方 根 Pi 。 

有 了 从 后 矩阵 提取 出 的 信息 ， 我 们 可 以 对 平方 根 协 方差 滤波 算法 中 涉及 的 计算 过 程 加 以 总 
结 。 其 已 在 表 14. 3 中 列 出 。 该 算法 一 个 完整 的 递归 循环 包括 了 前 矩阵 到 后 矩阵 的 变换 以 及 各 
参数 的 更 新 计算 。 关 于 参数 的 更 新 已 经 在 表 中 3、4 两 项 分 别 列 出 。 从 表 中 可 以 很 清楚 地 看 出 ， 
该 算法 确实 是 在 传播 预测 误差 协 方差 矩阵 的 平方 根 Po4*-:。 

表 14.3 平方 根 滤波 算法 的 计算 总 结 


1. 已 知 的 参数 : 

WERE: Antin 

测量 矩阵 B, 

测量 噪声 的 协 方差 矩阵 Qr,n 

动态 噪声 的 协 方差 矩阵 Qun 
. 待 更 新 的 参数 值 : 

状态 的 预测 估计: Raini 

预测 误差 协 方差 矩阵 的 平方 根 ，B 信 -1 
. 将 前 矩阵 变换 为 后 矩阵 的 正 交 旋转 : 


Qi’? | B,P13_1 Ri : OT 
| oE P, le. = re € PYÈ, l 


已 更 新 的 参数 ， 
G,= [G,Ri?] [R]! 
On = Y¥n—B, Rn jn-1 
Rn |n = Ên | n—1 十 Guan 
Rati | 2—=Anti | ankle 
Poin = PLP Yi 


tN 


Co 


Pa 


T/2 AT 
Pa tla [Anti | A Pie, Q2 ] | Path Ant | 


说 明 : | 
1. 第 4 点 中 ， 方 括号 中 所 有 的 矩阵 都 是 从 后 矩阵 中 提取 出 的 ， 并 且 是 已 知 的 。 
2. 书写 已 更 新 参数 时 ， 使 用 了 表 14. 2 的 相关 计算 公式 。 


吉文 斯 旋转 

到 目前 为 止 ， 在 用 公式 表示 平方 根 协 方差 滤波 算法 的 过 程 中 ， 我 们 更 多 地 关注 通过 消去 过 
程 将 前 矩阵 转换 为 下 三 角 后 矩阵 ， 而 忽略 了 如 何 确定 正 交 和 矩阵 @,。 解 决 这 一 问题 的 巧妙 方法 
就 是 利用 吉文 斯 旋转 的 方法 ， 具体 实现 是 多 步 的 “Golub 和 Van Loan, 1996), 

在 这 一 方法 中 ， 正 交 和 矩阵 @, 被 表示 为 N 个 正 交 旋转 的 积 ， 用 下 式 表示 : 


o= |o 
这 里 ， 我 们 不 考虑 离散 时 间 n 以 简化 其 表述 。 每 个 正 交 旋 转 的 特点 如 下 : 


1.0, 对 角 线 上 除 四 个 关键 元 素 外 的 其 他 元 素 均 为 1， 非 对 角 线 上 的 元 素 均 为 0。 
2. @; 的 下 标 & 称 为 关键 点 ， 围 绕 关 键 点 定位 O 的 四 个 策略 元 素 。 由 上 条 特性 可 知 ， 关 键 


点 总 是 位 于 前 矩阵 的 主 对 角 线 上 。 
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3. 策略 元 素 中 的 两 个 为 余 弱 人 参数， 另外 丙 个 为 正弦 人 参数。 为 了 更 为 详细 的 阐述 这 些 正 、 
余 改 参数 的 数学 意义 ， 现 假设 欲 消去 前 和 矩阵 的 第 k ARK., HF k AIAL 为 列 数 。 因 此 ， 对 
应 的 余弦 参数 〈 位 于 主 对 角 线 上 ) 和 AAA. MEKSR MFEMARID P 
的 一 个 必须 为 负 值 ， 如 下 2X2 矩阵 所 示 : 


0 Qu Ck ~ S 
is zJ- 了 Ck | Teo? 
所 有 的 四 个 参数 均 为 实数 值 ， 并 需 满 足以 下 约束 : 
a+ =1 ,对 于 所 有 上 上 (14. 56) 


下 面 的 例子 演示 了 将 前 矩阵 转换 为 下 三 角 后 甜 阵 的 具体 步骤 。 
例 1 3X3 前 矩阵 的 吉文 斯 旋转 
假设 欲 将 3X3 的 前 矩阵 X 转换 为 3X3 的 下 三 角 后 矩阵 Y， 需 经 过 三 个 步骤 。 


步骤 一 : 在 第 一 步 中 ， 计 算 
ci 一 5 0 Un Unz tas 
Si | Ci 01 = tot i422 2623 (14. ot? 


0 EM X33 0 | 0 1 U3, Uaz U33 
SS 
第 一 步 的 前 年 阵 ”第 一 次 吉文 斯 旋转 第 一 步 的 后 矩阵 


前 矩阵 中 的 两 个 零 元 素来 源 于 去 (14. 54), H 


wee eed ete 











Wis 一 一 Tus, + X20) 
由 于 需要 将 zz BRA OO, AUP RE: 
g = e 
利用 P+ = 1 RE a 和 5 ， 我 们 定义 式 (14. 57) 中 的 第 一 个 正 交 旋转 : 
ee ee ee eee (14. 58) 


HRZ: 在 第 二 步 中 ， 计 算 


Ui 0 13 Cc, 0 一 3 Ui O Viz 
“oe, Uz2 Uz 0 l 0 == | Vz Ue, Ves (14.59) 


U31 Vaz U33 





U3, U3 33 
第 二 步 的 前 矩阵 ”第 二 次 吉文 斯 旋转 第 二 步 的 后 矩阵 
其 中 


UVa =— Uns, 十 uC? 


由 于 希望 将 vs 变换 为 0， 因此 和 需 满足 以 下 条 件 : 


AF so ch =1 解 出 co 和 s;， 我 们 定义 式 (14. 57) 中 的 第 二 个 正 交 旋转 : 
gee ae St l (14. 60) 


af us) + už Á / Ui} + uis 


vl 0 Q 1 0 0 yil 0 . 0 l 
QO ca 一 | 一 1y3 Yz Yaa (14.61) 
Val U32 U33 OU s C3 31 a2 33 
———$—< ——_—y 


U2, Veg Ve 
S=PHHHE 第 三 次 吉文 斯 旋转 第 三 步 的 后 矩阵 


Co = 
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其 中 
Y23 =— Urz ss 十 vas Cs 


由 于 希望 将 ys 变换 为 0， 因此 需 满 足以 下 条 件 : 


U23 
dy eee 
U22 


利用 sg tcs = 1 解 出 cs Fl ss， 我 们 定义 式 (14. 57) 中 的 第 三 个 正 交 旋 转 : 


U22 U23 


E 3 = 一 一 14. 62 
由 上 述 三 步 转换 的 最 后 乘积 是 一 个 下 三 角 后 矩阵 ; 


Yu 0 0 
Y= > ¥22 0 | 
31 32 33 
这 是 我 们 需要 的 结果 。 m 


14.5 扩展 的 卡尔 曼 滤 波 器 


14.3 节 中 所 讨论 的 卡尔 曼 滤 波 器 问题 ， 提 出 了 由 式 (14.4)、 式 (13.5) 的 线性 状态 空间 模 
型 描述 的 对 动态 系统 进行 状态 估计 的 问题 。 但 是 ， 如 果 动 态 系 统 是 如 式 (14.7) 和 式 (14. 8) 定 义 
的 那样 非 线 性 服从 高 斯 分 布 的 ， 我 们 可 以 通过 线性 化 系统 的 非 线性 空间 状态 模型 的 方法 ， 扩 展 
卡尔 曼 滤波 器 的 应 用 范围 。 这 一 扩展 的 状态 估计 器 即 为 扩展 的 卡尔 曼 滤 波 器 。 这 一 扩展 是 可 行 
的 ， 因 为 卡尔 曼 滤 波 器 是 在 离散 时 间 系 统 的 情况 下 ， 用 差分 方程 的 形式 来 定义 的 。 
为 了 确定 扩展 的 卡尔 曼 滤 波 妖 的 实现 策略 ， 我 们 首先 需要 对 定义 卡尔 曼 滤 波 器 的 式 子 进行 
一 些 细 微 的 变化 ， 以 使 得 其 更 利于 现在 的 讨论 。 
卡尔 曼 滤 波 器 定义 式 的 变形 
首先 我 们 应 用 式 (14. 9) 和 式 (14. 18) 重 写 新 息 过 程 的 定义 式 : 
a, = Yn — by (Kt) (14. 63) 
紧 接 着 ， 做 如 下 的 观察 : 我 们 假设 实现 卡尔 曼 滤 波 器 除了 使 用 式 (14.4) 和 式 (14.5) 的 状态 等 
式 ， 还 有 如 下 状态 空间 模型 的 替换 形式 : 
Xm 一 Anazn F On + &, (14. 64) 
和 
Ya = Bx, +v, (14. 65) 
式 (14.65) 中 给 出 的 测量 模型 和 式 (14.5) 所 给 出 的 模型 是 完全 相同 的 。 然 而 ， 式 (14. 64) 和 
式 (14. 4) 所 定义 的 状态 空间 模型 主要 不 同 点 在 于 引入 了 新 的 参数 总 ， 其 被 假设 为 已 知 的 《〈 如 非 随 
机 的 ) 向 量 。 由 此 ， 在 不 考虑 式 (14. 32) 对 其 作出 的 修改 ， 卡 尔 曼 滤波 器 可 被 表述 为 如 下 形式 ，; 


ki = Antisn Xan + G (14. 66) 
这 一 修改 是 为 了 接 下 来 将 讨论 的 扩展 的 卡尔 曼 滤 波 器 的 实现 。 
实现 扩展 的 卡尔 曼 滤波 器 的 预备 步骤 


如 前 文 所 述 ， 扩 展 的 卡尔 曼 滤 波 器 (EKF) 是 一 个 近似 解 ， 使 得 我 们 可 以 将 卡尔 曼 滤 波 的 
思想 扩展 到 非 线 性 状态 空间 模型 (Jazwinski，1970; May beck，1982)。 这 里 考虑 的 非 线性 状 
态 空间 模型 是 式 (14.7) 和 式 (14. 8) 所 描述 的 形式 ， 再 次 列 出 只 是 为 了 表述 的 方便 : 

X41 = a,(x,) 十 @, (14. 67) 


和 . 
Yn = b, (Xn) 十 Vn (14. 68) 
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如 前 文 所 述 ， 动 态 噪 声 o MWERA v, 是 无 关 的 均值 为 零 的 高 斯 噪声 过 程 。 其 协 方差 矩阵 分 
别 为 Q,,: 和 QQ,,,。 此 外 ， 非 线性 模型 可 能 随时 间 而 改变 ， 因 此 用 向 量 蚂 数 a.(*) 和 和 b,(*) 的 下 标 
n 表述 这 种 变化 。 

扩展 的 卡尔 曼 滤 波 器 (EMF) 的 基本 思想 是 在 每 个 时 间 点 ， 围 绕 最 近 状 态 估 计 结 果 对 
式 (14. 67) 和 式 (14. 68) 中 定义 的 状态 空间 模型 线性 化 。 此 估计 可 能 是 滤波 估计 也 可 能 是 预测 佑 
计 ， 其 取决 于 线性 化 过 程 中 究竟 谁 起 作用 。 一 旦 得 到 了 线性 化 模型 我们 就 可 以 使 用 卡尔 曼 渡 
波 器 的 相关 公式 了 。 

这 一 近似 过 程 分 为 如 下 两 阶段 : 

阶段 1 新 矩阵 的 构建 

通过 求 偏 微分 ， 构 建 下 述 两 个 矩阵 : 
_ Qa, (x) 








.69 
Avtisn Ox =o (14 ) 
和 
p, = D) (14. 70) 
Ox E= Kall 





具体 来 说 ， 转 移 矩阵 A,+1,; 的 第 ij 个 元 素 等 于 向 量 函 数 a C(x) 的 第 i 个 分 量 对 向 量 x 的 第 j 个 分 
量 的 偏 微分 。 同 样 的 ， 测量 和 矩阵 B, HB iy 个 元 素 等 于 向 量 函 数 b, (x) 的 第 i 个 分 量 对 向量 x 的 
Si 个 分 量 的 偏 微分 。 前 者 在 滤波 状态 为 名 |, 时 估计 ， 后 者 在 预测 估计 各 1,-!1 时 估计 。 当 % 1, 和 
Snn BART, Antin AB, 均 可 计算 。 

例 2 二 维 非 线 性 模型 

设 一 由 下 述 二 维 非 线 性 状态 空间 模型 描述 的 动态 系统 : 

“1 ath Aia T Loin W1,n 
人 
Yn = Limh, t Up 
此 例 中 ， 有 
之 1 Fan | 

Nin Li, ,nT2,n 


an (x,) = | 
和 


b, (Xn) 一 Liye 3in 
应 用 式 (14. 69) AK 14. 70) 可 得 : 
人 AH， 一 2 ann | 
” n 一 Tz,nln = iala 
和 
B, = EAE 2 aiak Taai 
阶段 2 ”空间 模型 线性 化 
一 日 构建 了 转移 矩阵 A,+1,, 和 测量 矩阵 B,， 它 们 可 被 用 于 对 非 线性 函数 a, (x) 及 b, (x,) 
绕 状 态 估 计 名 +1,, 和 名 1, 分 别 进行 的 一 阶 泰 勒 近似 中 。 具 体 来 说 : 


a, (xX, ) = a, Cnn) H Anti LX — Rah | (14. 71) 
和 
b, (x,) = b, Chi) + B Lx, — Xu] (14. 72) 
有 了 上 述 近似 表示 ， 我 们 可 以 近似 表示 式 (14. 64) AIA 14. 65) 的 非 线 性 状态 等 式 。 近 似 结 果 分 别 为 : 
Xm © Anti,n Xn 十 Or + n (14. 73) 
和 
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y, ~~ B,x, + Vn (14. 74) 


这 里 ， 我 们 引入 了 两 个 新 的 量 ， 系统 模型 中 的 & 和 测量 模型 中 的 了。 两 者 的 定义 如 下 : 
ËE, = a, (Xn) 一 Antisn Snn (14.75) 
和 
Ya = yn — Lb, (X41) — BX ] (14. 76) 


其 中 ，a Ra) F b, (1,-1) 分 别 是 给 定 的 非 线 性 函数 a, (x,) 和 bs (xD LE Xa = É, n A Xq = Ke nia BF 
的 估计 值 。 如 果 联 系 式 (14. 69) 中 给 出 的 Ani EAB, 那么 新 加 入 的 项 Én SERN Al n 均 
是 已 知 的 。 其 论证 了 我 们 先前 观察 的 有 效 性 。 同 理 ， 根 据 式 (14. 70)B, 是 已 知 的 ， 所 以 第 二 个 
新 引信 的 项 3 对 任意 时 刻 n 均 是 已 知 的 。 因 此 ， 我 们 可 以 将 3 视 为 线性 化 模型 在 ” 时 刻 有 效 
的 观测 问 量 。 

扩展 的 卡尔 曼 滤 波 器 的 实现 


式 (14.73) 和 式 (14. 74) 所 描述 的 近似 状态 空间 模型 ， 是 与 式 (14. 64) 和 式 (14. 65) 所 描述 的 
有 相似 的 数学 表达 形式 的 线性 模型 。 两 者 的 唯一 细微 差别 在 于 ,为 了 模型 的 线性 化 ， 
式 (14. 65) 中 的 观测 值 y(n) 由 新 的 观测 值 3 代替。 基于 这 一 目的 ， 我们 已 经 预先 将 式 (14. 64) 
和 式 (14. 65) 的 状态 空间 模型 公式 化 了 。 

因此 ， 扩 展 的 卡尔 曼 滤 波 侨 (EMF) 的 定义 公式 和 吉 14.2 中 卡尔 曼 滤 波 器 的 定义 公式 类 
似 ， 只 是 用 表 14. 4 描述 的 方式 ， 对 卡尔 曼 滤 波 器 的 表 14.2 中 的 第 二 个 和 第 四 个 公式 进行 了 相 
应 的 修改 。 


表 14.4 扩展 的 卡尔 曼 滤 波 器 的 总 结 
输入 过 程 ; 
Observations 一 Lyl1，yz，，…，yn] 
已 知 参 数 : 
JE Be HEAR AS i at PL = an (x, ) 
非 线 性 测量 向 量 函 数 二 b, Cx, 
过 程 曲 声 向 量 的 协 方差 矩阵 二 Q,.， 
测量 曲 声 向 量 的 协 方 差 矩 阵 二 Q,,， 
计算 ; n=l, 2, 3, o 
G, = P„,n—1 BI LB, Pa.a—1 Bi +Qo,n 7! 
On = Yn — Dy CRa jn—1) 
Rn |n = Ên (a1 TG, On 
ntal n= an(n n) 
P, jn = Pan n1 — Ga Bp Pp ,1 
Poti [n= Ant tiaPa | nAdt iin T Quin 





说 明 : 
1. 线性 化 的 矩阵 Antin A B, 是 从 它们 相应 的 非 线 性 函数 anCx)、bs x)， 分 别 用 式 (14. SDAR. 70) 计 算得 到 的 。 
2. an Cnain) 和 by (1s-1) 的 值 是 通过 将 非 线 性 向 量 函 数 an Cx.) De (x) 中 的 状态 x, 分 别 兰 换 为 滤波 状态 估计 
人 ,和 预测 状态 估计 驳 ,1"-1 得 到 的 。 
. 检查 表 14. 4 的 迭代 顺序 ， 现 在 知道 用 式 (14. 69) 、 式 (14. 70 RM AR A. AB, 赋值 的 原因 。 
初始 条 件 ; 
Ri | o=ELx | 
Py o =EL Cx: 一 EU D(x 一 Ex 7 J]= Ho 
其 中 ，JIo= 二 6-!11, 6 是 一 个 小 的 正常 数 ,， I 是 单位 矩阵 。 


Lee) 


RTD HEB AS SB BS Be ate BYE Ot 


扩展 的 卡尔 曼 滤 波 器 在 非 线 性 状态 估计 领域 得 到 关注 的 原因 主要 有 两 个 : 
1. 扩展 的 卡尔 曼 滤波 器 建立 在 卡尔 曼 滤 波 器 理论 的 框架 之 上 ， 有 较 强 的 理论 依据 。 
2. 扩展 的 卡尔 曼 滤 波 器 相对 易于 理解 ， 因 此 被 直接 用 于 实践 ， 并 已 有 相当 长 的 应 用 历史 。 
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然而 ， 扩 展 的 卡尔 曼 滤 波 器 有 两 个 主要 缺点 ， 限 制 了 它 的 应 用 范围 : 

1. 为 使 扩展 的 卡尔 曼 滤 波 器 能 令 人 满意 地 运行 ， 状 态 空间 模型 的 非 线 性 必须 是 轻 度 的 ， 
以 满足 应 用 一 阶 泰勒 展开 式 的 条 件 。 这 是 扩展 的 卡尔 曼 滤 波 妖 的 理论 基础 。 

2. 扩展 的 卡尔 曼 滤 波 器 的 实现 ， 需 要 非 线 性 动态 系统 的 状态 空间 的 一 阶 偏 微 分 (如 函数 
行列 式 ) 的 相关 知识 ， 这 一 内 容 尚 处 于 研究 阶段 。 然 而 ， 在 许多 实际 应 用 中 ， 函 数 行列 式 的 计 
算 结 果 难 以 令 人 满意 或 根本 无 法 计算 。 

为 了 指出 扩展 的 卡尔 曼 滤 波 器 的 局 限 性 ， 描 述 状 态 值 计 的 贝 叶 斯 方法 是 有 意义 的 ， 我 们 将 
在 下 一 节 做 详细 的 讨论 ，。 


14.6 贝 叶 斯 滤波 器 


采用 贝 叶 斯 滤波 器 解决 动态 系统 的 状态 估计 问题 ， 从 线性 到 非 线性 ， 是 由 于 至 少 它 在 概念 
上 为 动态 系统 状态 估计 提供 了 统一 的 框架 ， 因 此 把 它 作为 这 一 节 的 标题 。 

自然 地 ， 概 率 原理 是 解决 状态 估计 问题 的 贝 叶 斯 方法 的 核心 。 为 了 易于 表示 ， 下 面 我 们 用 
“分 布 ” 一 词 表 示 概 率 密度 函数 。 此 外 ， 参 照 式 (14. 1) 的 系统 状态 ) 模型 和 式 (14.2) 的 测量 
模型 ， 使 用 以 下 标记 : 


Yan 二 观测 值 序列 ， 表示 {¥i} Fei. 
p(%q | Ya-1) 一 在 当前 时 刻 x， 给 定 整 个 观测 序列 直到 并 包括 yit, RE x 的 先 验 分 布 。 
p(x, | Ya) 二 给 定 整个 观测 序列 直到 并 包括 当前 时 刻 n 时 ， 当 前 状态 x, 的 后 验 分 布 ; 这 一 分 布 一 般 简 单 地 称 
n n 为 “后 验 ”。 
二 给 定 最 近 的 过 去 态 ni MARE mn 的 过 渡 态 分 布 : 这 一 分 布 一 般 称 为 “过 滤 先 验 ” 或 者 
P(X, ee éi ” 
先 验 ”。 
LCY, | xn) 一 给 定 当 前 状态 Xn» 当前 观测 值 Yn FA tik AR oh Se 


贝 叶 斯 滤波 器 的 实现 ， 唯 一 的 假设 是 状态 的 变化 是 服从 马尔 可 夫 过 程 的 ; 这 一 假设 也 隐 含 
在 卡尔 曼 滤波 器 的 公式 和 公式 的 变 体 中 ， 这 些 在 本 章 之 前 的 部 分 讨论 过 。 基 本 上 ， 该 假设 包含 
了 以 下 两 个 条 件 的 结合 : 

| 给 定 状 态 序 列 Xo » X19"* s Xy Xa’ 当前 状态 X, 仅 取 决 于 最 近 的 过 去 态 Xn-19 通过 状态 过 
渡 分 布 p(x, |x). WIED x 是 分 布 式 的 ， 根 据 

plxo | yo) = plxo) 

2. 观测 值 mw syot y, 仅 条 件 依赖 于 相应 的 状态 x1 ,x;，… Xs 这 一 假设 意味 着 观测 值 的 条 

件 联 合 似 然 函 数 例如， 所 有 观测 值 的 联合 分 布 与 直到 且 包 括 n 时 刻 的 状态 有 关 ) 如 下 


L(y; 7y 了 2 ，。。。 oY | x; 9 RR »X,) = [] dy. | x;) (14. 77) 
i=] 


后 验 分 布 p(x, | Y,) 在 贝 叶 斯 分 析 中 至 关 重 要 ， 它 包含 了 在 nn 时 刻 , 已 经 接收 整个 观测 序 
列 Y, 的 条 件 下 ， 关 于 状态 x, 的 全 部 知识 。 因 此 ，z(x | Y,) 包 含 了 所 有 状态 估计 的 必要 信息 。 
假设 ， 例 如 希望 决定 状态 x, 满足 最 小 均 方 误差 (MMSE)〉 时 最 优 的 滤波 估计 ， 根 据 贝 叶 斯 信 
计量 ， 需 要 的 解 是 
x, = Lx |Y, | = [xp | Y,) dx, (14. 78) 
Aine, OF Tea, 精度 的 评估 ， 计 算 协 方差 矩阵 
P， = Esl Cx, — Enn ) (Xn — Xen | = ie — Kae) (Xn — Xan px | ¥,Idx, (14. 79) 


计算 效率 已 经 成 为 仿 人 关注 的 实际 要 素 ， 因 此 ， 用 递归 的 方式 计算 滤波 估计 包 ,-: 和 相关 
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的 参数 是 非常 必要 的 。 假 设 我 们 有 n 一 1 时 刻 状 态 x, 1 的 后 验 分 布 p(x,.1 |Y) BA nmt 
的 状态 的 后 验 分 布 的 更 新 值 ， 通 过 以 下 两 个 基本 的 时 间 步 又 产生 ， 
1. 时 间 更 新 ， 包 括 给 定 观 测序 列 Y _,， 计 算 x 的 预测 分 布 ， 如 下 所 示 


Ce =| Ge ieee Geng Vodka (14. 80) 
PK | Ye) = | POG |e P (Xr | Yrs ) dx 
预测 分 布 先 验 分 布 ME RDA 


这 一 公式 用 概率 原理 的 基本 定律 证 明 如 下 : 旧 的 后 验 分 布 p(x,-1 | Y,-1) MARA pC, | x,-1) 
HRE, BATERA x MAWRA x 在 Y,-1 的 条 件 下 的 联合 分 布 。 这 一 联合 分 布 对 X 
积分 ， 得 到 了 预测 分 布 p(x |Y). 
2. 测量 更 新 ， 利用 当前 状态 x 的 包含 在 新 观测 值 y 中 的 信息 ， 计 算 更 新 的 后 验 分 布 
p(x, |Y,) ,特别 地 ， 对 预测 分 布 pcx, |Y,-1) 运 用 著名 的 贝 叶 斯 定理 得 到 
1 


p(x |Y,) = z el Ym) L(y, | Xn) (14. 81) 
更 新 的 后 验 分 布 MAAA MEER 
其 中 
oe A ee fio, es (14. 82) 


是 标准 化 常数 (也 称 作 分 析 函 数 ); 它 保证 了 后 验 分 布 p(x |Y,) 的 多 维 曲 线 下 的 全 部 体积 是 正 
如 所 要 求 的 那样 ， 是 单位 的 。 标 准 化 常数 序列 {2Z;)-!， 产 生 了 相应 观测 序列 《Yi) 广 ;的 联合 对 
BADER RB. GNF Aas 


log( ply, 9 ¥2 27 Vn) > log(Z,) (14. 83) 


FR (14. 80) ASR C14. 83) 都 是 前 面 描述 的 马尔 可 夫 假 设 的 推论 。 
在 每 个 时 间 步 又 ， 都 通过 贝 叶 斯 模型 的 计算 来 执行 时 间 更 新 和 测量 更 新 。 事 实 上 ， 它 们 构 
成 了 一 个 计算 的 递归 或 者 循环 ， 如 图 14. 4 描述 的 那样 ， 为 了 表示 的 方便 ， 省 略 了 Z. 


先 验 分 布 {ARR PAH 


PAX IX, 1) K 更 新 的 
旧 的 后 验 分 布 | 上 一 一 预测 分 布 OM? a aes 
PR Ft p(x, Y,-1 Ax, lY,) 


单位 时 间 延 了 时 
图 14.4 贝 叶 斯 滤波 器 的 框图 ， 将 更 新 的 后 验 分 布 p(x | Y,) 作 为 所 关心 的 输出 


近似 的 贝 叶 斯 滤波 

图 14. 4 的 贝 叶 斯 滤波 器 是 概念 上 最 优 的 ， 有 以 下 两 个 有 趣 的 性 质 : 

1. 模型 以 递归 的 方式 运行 ， 传 播 后 验 概 率 pax, |Y). 

2. 提取 自 全 部 观测 过 程 Y, 的 关于 状态 x, 的 模型 知识 ， 完 全 包 合 在 后 验 分 布 pCx, | Y,) 中 。 

随 着 这 一 分 布 称 为 关注 的 焦点 ， 现 在 列 出 滤波 目标 的 基础 。 详 细 地 说 ， 考 虑 状态 x, 的 任 
意 的 函数 ， 记 为 h(x,)。 在 实际 的 滤波 应 用 中 ， 我 们 感 兴趣 的 是 在 线 估计 函数 h(x,) 的 信号 特 
征 。 这 些 特 征 包含 在 贝 叶 斯 估计 量 中 ， 用 函数 h(x) 的 总 体 平均 值 定义 ， 称 为 
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h, = Es [h(x,) | =| A(x, ) (x, | Y,) dx, (14. 84) 
任意 函数 后 验 分 布 
其 中 Es 是 对 后 验 分 布 p (x, | Y,) 的 期 望 ， 该 后 验 分 布 是 关于 线性 或 者 非 线 性 动态 系统 的 。 
式 (14. 84) 包 括 两 个 特例 ， 关于 状态 的 滤波 估计 的 式 (14.78) 和 关于 估计 的 协 方差 矩阵 的 
式 (14.79)， 说 明了 贝 叶 斯 模型 的 一 般 的 统一 框架 、 对 式 (14.78)， 有 天 (mm) =x,» X 
(14.79), A 
h(x) = (x, — nn ) (x, — Xan? 
HPR h eS PI 
对 于 由 式 (14.4) 和 式 (14. 5) 的 线性 高 斯 模型 描述 的 动态 系统 的 特例 ， 式 (14. 84) 的 递归 解 
恰好 是 通过 卡尔 曼 滤 波 器 实现 的 ， 见 习题 14. 10。 然 而 ， 当 动态 系统 是 非 线 性 或 非 高 斯 的 ， 或 
者 既 非 线性 也 非 高 斯 ， 那 么 构成 式 (14. 84) 的 被 积 函 数 的 生成 分 布 不 再 是 服从 高 斯 分 布 的 ， 这 
造成 了 最 优 贝 叶 斯 估计 量 六 的 计算 困难 。 对 于 后 一 种 情况 ， 我 们 别 无 选择 只 能 放弃 贝 叶 斯 最 
优 ， 和 寻找 一 个 易 计算 的 近似 估计 量 ，。 
为 了 这 一 实际 的 实现 ， 现 在 正式 确定 非 线性 滤波 目标 : 
在 于 时 刻 ， 给 定 关于 式 (14.7) 和 式 (14.8) 的 非 线性 状态 空间 模型 的 全 部 观测 序列 Y,， 推 
导出 式 (14. 84) 定 义 的 贝 叶 斯 估计 量 h, 的 近似 实现 ， 满 足 两 个 实际 要 求 : 
1. 计算 的 可 信 性 。 
2. 递归 的 可 实现 性 。 


通过 近似 的 贝 叶 斯 滤波 器 获得 的 非 线 性 滤波 问题 的 局 部 最 优 解 ， 可 能 通过 两 个 途径 中 的 一 
个 得 到 ， 取 决 于 求 近 似 的 方法 : 
L 后 验 分 布 的 直接 数值 近似 。 这 一 非 线性 滤波 的 直接 方法 的 基本 原理 总 结 如 下 : 


一 般 地 ， 用 局 部 的 观点 看 ， 相 对 于 求 表示 滤波 器 系统 (状态 ) 模型 特征 的 非 线性 函数 的 近 
似 ， 直 接 求 后 验 分 布 p(x, |Y,) 的 近似 更 容易 。 


详细 地 说 ， 给 定 直到 并 包含 n 时 刻 的 全 部 观测 值 ， 在 点 x, 一 名 1 附近 求 后 验 分 布 p(x | Ya) 
的 局 部 近似 ， 其 中 各 1, 是 状态 x, 的 滤波 估计 ;对 局 部 的 强调 使 得 滤波 器 的 设计 在 计算 上 简单 且 
执行 速度 快 。 近 似 的 目的 是 促进 卡尔 曼 滤 波 器 理论 的 随后 应 用 。 事 实 上 ， 通 过 直接 使 用 数值 方 
法 ， 广 泛 使 用 的 扩展 的 卡尔 曼 滤 波 器 成 为 近似 贝 叶 斯 滤波 的 例子 。 最 重要 的 是 ， 在 14.7 WS 
绍 了 一 个 新 的 贝 叶 斯 滤波 器 ， 称 为 数值 积分 卡尔 曼 滤波 器 ， 它 比 扩展 的 卡尔 曼 滤波 妖 玩 强大， 
2. 后 验 分 布 的 间接 数值 近似 。 非 线性 滤波 的 第 二 种 方法 的 基本 原理 总 结 如 下 : 


从 全 局 的 观点 看 ， 通 过 使 用 Monte Carlo 模拟 ， 求 后 验 分 布 pa, |Y,) 的 间接 近似 ， 使 得 非 
线性 滤波 的 贝 叶 斯 框架 在 计算 上 易 处 理 。 


将 在 14. 8 节 讨论 的 粒子 滤波 器 ， 是 非 线性 滤波 的 第 二 种 方法 的 一 个 普及 的 例子 。 更 确切 
地 说 ， 粒 子 滤波 器 依赖 于 一 个 称 为 逐次 Monte Carlo 方法 的 技术 ， 该 方法 使 用 一 系列 随机 抽取 
带 关联 权 值 的 样本 ， 来 近似 后 验 分 亢 p(x, |Y,)。 随 着 模拟 过 程 中 使 用 的 样本 数 的 增 大 ， 后 验 
分 布 的 Monte Carlo 计算 越 来 越 精确 ， 这 是 我 们 想 要 的 目标 。 然 而 ， 样 本 数量 的 增 大 使 得 使 用 
SMC 方法 的 计算 更 加 复杂 。 换 句 话说 ， 以 计算 上 的 代价 换取 了 滤波 精度 。 

通过 简短 的 讨论 ， 显 然 局 部 的 直接 方法 来 近似 贝 叶 斯 滤波 是 建立 在 卡尔 曼 滤波 器 理论 的 基 
础 上 的 ， 而 全 局 的 间接 方法 脱离 了 这 一 理论 ， 另 以 蹊 径 。 一 般 来 说 ， 非 线性 滤波 的 全 局 的 间接 
方法 比 局 部 的 直接 方法 在 计算 上 要 求 更 高 。 
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14.7 ”数值 积分 卡尔 曼 滤 波 器 : 基于 卡尔 曼 滤 波 器 


到 目前 为 止 ， 我 们 已 经 知道 ， 当 假设 所 有 的 条 件 分 布 都 是 高 斯 分 布 时 ， 贝 叶 斯 滤波 器 是 易 
于 计算 的 。 在 这 个 特例 中 ， 贝 叶 斯 滤波 器 的 近似 值 归 结 为 计算 一 个 特殊 形式 的 多 维 积 分 ， 表 
示 为 
非 线 性 函数 X 高 斯 函数 
具体 地 说 ，、 给 定 一 个 关于 向 量 XC 风 *” 的 任意 非 线 性 也 数 f(x)， PARR, SRM PBA 
的 积分 : 


Act) = | (Hex r od (14. 85) 
R” M a” a A 

任意 高 斯 

函数 函数 


这 是 定义 在 笛 卡 尔 坐 标 系 下 的 。 对 非 线 性 函数 (ff) 的 数值 近似 ， 我 们 打算 使 用 三 阶 球 面 径 向 数 
值 积分 法 则 (Stroud, 1971; Cools，1997)。 数 值 积分 法 则 是 通过 人 迫使 数值 积分 点 服从 某 种 对 
称 的 形式 建立 起 来 的 。 这 样 ， 为 了 求 出 一 些 权 值 和 数值 积分 点 ， 而 求解 一 系列 非 线 性 方程 的 复 
杂 度 显著 降低 。 在 详细 介绍 数值 积分 法 则 之 前 ， 先 引入 一 些 记 法 和 和 定义: 
。 用 多 来 表示 积分 区 域 ， 如 果 满 足以 下 两 个 条 件 ， 我 们 就 说 定义 在 名 上 的 加 权 肾 数 wa) 
是 完全 对 称 的 : 
1) xE 久 说 明 yE 多， 其 中 y 是 从 x 获得 的 任意 一 点 ， 通 过 交换 和 改变 x 坐标 的 记号 
得 到 
2) ÆDE wx) =wly). 
。 在 完全 对 称 的 区 域 中 ， 我 们 称 点 是 一 个 发 生 器 ， 如 果 惠 王 Cay sta see yu, 030) E 
RM , Hb guild, i= 1,2,°,(r—-1), 
。 我 们 用 记号 [ui ,ws，…,u,] 来 表示 整个 点 集 ， 可 以 通过 交换 和 改变 发 生 器 4 的 记号 的 一 
切 方 式 得 到 。 为 了 简洁 ， 我 们 在 记 数 中 掉 制 (nn 一?) 个 零 结 点 。 比 如 L1j== R 表示 以 下 


AR: 
l 0 =] 0 
Ge 
» 我 们 用 记号 Lu ,is tt tt, |e 来 表示 发 生 韶 U 的 第 iP o 
转换 为 球面 径 癌 积分 


这 个 转换 过 程 中 的 关键 步骤 是 变量 转换 ， 即 将 Cartesian 向 量 xE R” 转换 为 由 半径 > 和 方 
向 向 量 z 定义 的 球面 径 向 问 量 ， 概 括 为 ; 


A 二 rz，2 Zz 二 1]， 使 得 对 relo, œ), 有 x x=r 


然后 式 (14. 85) 的 积分 可 以 改写 为 球面 径 向 坐标 系 下 的 二 重 积分 ， 如 下 所 未: 


h(f) = | trade exp — 2) do(z) dr (14. 86) 
Om 是 由 Qu 一 {z;z7z 一 1} 定 义 的 区 域 ， 在 对 Quw 的 积分 中 哎 ") 是 球 表 面积 。 
Sir) 一 | frzda(a) (14. 87) 
S14. 87) 的 积分 是 根据 球面 法 则 计算 的 。 已 经 计算 出 S(z)， 我 们 发 现 对 半径 的 积分 
h = F sore saa di (14. 88) 


可 以 通过 运用 高 斯 求 积 计算 得 出 。 计 算出 h， 式 (14. 85) 的 计算 就 完成 了 。 这 两 种 法 则 将 在 下 
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文中 依次 介绍 。 
球面 法 则 
首先 来 看 一 个 具有 如 下 形式 的 三 阶 球面 法 则 


| adoa) ~ w) tC], (14. 89) 
ty i=] 


式 (14. 89) 的 法 则 需要 发 生 器 Ex] 中 总 共 OM 个 数值 积分 点 ; 这 些 数值 积分 点 位 于 一 个 M 维 的 
球体 和 它 的 轴线 的 交集 里 。 为 了 确定 未 知 的 参数 u Mw, TEZER. 考虑 单项 
式 f(z) 一 1 Mf) = PEST. AYA 


frz) = 1: 2Mw = | Sys (14. 90) 
Un, 
ee 2 Qe 一 = 2 __ Am 
f(z) = zi: 2uue = | zido(z) = 一 一 (14. 91) 
os M 


其 中 M 是 问 量 x 的 维 数 ， 单位 球体 的 表面 积 定 义 为 ; 
P Fd 
“TrCM/2) 
其 中 
TCM) = | a exp(— 工 ) dz 


EWEA. AERE Avs MAAL 90) 和 式 (14. 91) 解 出 w 和 得 到 
Am 


w= -== Ff wv =l 


2M 
径 问 法 出 
对 于 径 向 法 则 来 说 ， 我 们 打算 使 用 高 斯 求 积 ， 它 被 认为 是 一 维 空间 中 就 算 积分 的 最 有 效 的 
数值 方法 。 一 个 m 点 高 斯 求 积 精 确 到 (2M 一 1) 次 多 项 式 ， 如 下 : 


| flxwledde ~ Dw fx) (14. 92) 


其 中 w(z) 表 示 一 个 加 权 函 数 (Press F, 1988). x; Mw, 分 别 是 待 确定 的 正 交点 和 关联 权 值 。 
比较 式 (14. 88) 和 和 式 (14. 92) 的 积分 ， 得 出 加 权 肾 数 为 w(x) 二 zx”!'exp( 一 zx*)， 积 分 区 域 是 LO, 
oo), AEH t= 做 最 后 的 变量 替换 ， 得 到 想 要 的 半径 积 


\" f(a a" exp(— x’) dx = an FD expl t) dt (14. 93) 


EHPFD=f(WVD. KR149DSSHUNAD, RENBRASSH CBM BREN 
(Stroud, 1966; Press and Teukolsky, 1990), 

一 阶 的 高 斯 拉 盖 尔 法 则 对 7() 1, t 是 精确 的 。 相 应 地 ， 法 则 对 P= 1, 2° 是 精确 的 ; 
对 奇数 次 次 多 项 式 ， 它 不 是 精确 的 ， 例 如 对 f(zx)= 二 x，zx: 。 幸 运 的 是 ， 当 径 向 法 则 与 球面 法 则 
结合 之 后 计算 式 (14. 85) 的 积分 ， 由 此 得 到 的 球面 径 向 法 则 消去 了 所 有 的 奇数 次 多 项 式 。 得 到 
这 个 好 的 结果 是 由 于 对 称 性 的 优点 ， 使 得 球面 法 则 消去 了 任意 奇数 次 多 项 式 ， 见 式 (14. 86)。 
因此 ， 计 算式 (14. 85) 的 球面 径 向 法 则 对 所 有 一 次 多 项 式 是 精确 的 。 根 据 这 个 论证 ,球面 径 同 
法 则 对 所 有 ER” 中 的 三 次 多 项 式 是 精确 的 ， 考 虚 一 阶 广义 高 斯 拉 盖 尔 法 则 ， 它 使 用 单一 点 
和 单一 权 值 。 因 此 可 以 号 成 


上 fC) 'exp(— x° ) dr œ w f(x) 
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其 中 
w = 3T r(%) A x, = /M/2 


球面 径 问 法 则 


在 最 后 一 节 里 ， 我 们 阐述 两 个 有 用 的 结论 ， 它们 被 用 于 结合 球面 和 径 向 法 则 和 对 高 斯 加 权 
积分 ， 扩 展 球面 径 向 法 则 。 各 自 的 结果 表达 为 以 下 的 两 个 定理 (Arasaratnam and Haykin, 
2009): 

定理 1 用 mr 点 高 斯 求 积 法 则 数值 计算 半径 积分 


| FO exp 一 )dr = Saf 
用 ms 点 球面 法 则 数值 计算 球状 积分 ; 
| fers)docs) = Dates) 
然后 ， 一 个 (za;X7) 点 的 球面 径 向 数值 积分 法 则 通过 双 求 和 近似 


i= f(x) exp(— x’x)dx = > Yap, f(r,s;) 


定理 2 将 两 个 加 权 函 数 表 示 为 TE T TEPE E. of w: (X) =N x; D). HY, HAZ 
的 向 量 x， 项 .NGCXi, 马 ) 表 示 一 个 均值 为 下 方差 给 阵 为 怠 的 高 斯 分 布 。 然 后 ， 对 于 每 个 平方 根 
EE Lor ETH SD, A 


| ,fw (x) dx = a Sf (VZĒx + pw (x) dx 
R 


对 于 三 阶 球面 径 向 法 则 ，m, 二 1 和 m, 二 2M。 相 应 地 ， 我 们 只 需要 总 共 为 2M 个 数值 积分 
点 。 而 且 ， 这 个 法 则 对 以 下 被 积 函 数 是 精确 的 ， 该 被 积 函数 能 写作 不 超过 三 次 多 项 式 和 所 有 奇 
数 次 多 项 式 的 线性 组 合 的 形式 。 调 用 定理 1 和 定理 2， 我 们 现在 可 以 扩展 三 阶 球面 径 向 法 则 进 
行 标准 高 斯 加 权 积 分 的 数值 计算 。 


hy) 一 | £60 WCGxi0,Ddx ~ Swf) (14. 94) 
R i=] 


& = ZO] 和 wi = =i Si IM 


实际 上 ，, & 是 M 维 癌 量 x 的 数值 积分 点 的 表示 。 
数值 积分 卡尔 曼 滤波 伦 的 推导 过 程 

式 (14. 94) 是 数值 积分 法 则 ， 我 们 寻找 式 (14. 85) 的 积分 的 数 什 近似。 实际 上 ， 数 值 积分 法 
则 是 计算 非 线性 滤波 的 贝 叶 斯 框架 中 包含 的 所 有 积分 的 核心 。 对 扩展 的 上 尔 曼 汪 波 器 ， 我 们 假 
设 动态 噪声 @, 和 测量 噪声 " 是 联合 服从 高 斯 分 布 的 。 这 个 假设 可 几 以 下 内 容 证 明 ， 

L 从 数学 的 角度 来 看 ， 高 斯 进程 是 简单 的 ， 数 学 上 是 容易 解决 的 。 
2. 在 很 多 现实 问题 中 出 现 的 噪声 过 程 ， 可 以 建 模 为 高 斯 过 程 ， 根 据 概率 理论 的 中 心 极 限 
定理 。 

在 高 斯 假设 条 件 下 ， 我 们 现在 可 以 通过 以 下 的 数值 积分 法 则 来 近似 贝 叶 斯 滤波 右 : 

L 时间 更 新 。 假 设 先 验 分 布 p(x,-1 | Y,-1) 是 用 一 个 高 斯 分 布 来 近似 ,该 高 斯 分 布 的 均值 
为 各 -1|,-!1， 协 方差 矩阵 等 于 滤波 误差 协 方差 矩阵 P,-:|，:。 然 后 ， 对 贝 叶 斯 佑 计量 使 用 公子 
我 们 可 以 将 状态 的 预测 估计 表示 为 ; 


其 中 
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Xi = El x, | Ymi | za E a(x,_;) NOx i Xiii Pi 1) dX (14. 95) 
非 线 性 状态 高 斯 分 布 
转换 函数 


这 里 我 们 运用 了 式 (14.7) 系 统 模型 的 知识 ， 以 及 动态 噪声 o 与 观测 序列 Y ;无关 的 事实 。 
类 似 地 ， 我 们 获得 预测 一 错误 协 方差 矩阵 


Piva = | .acxr- da? (Xn) N (Xm Xim] 网 OK.) — Knit Ki 1 + Q.a (14. 96) 
2. 测量 更 新 。 式 (14, 95) 是 时 间 更 新 的 一 个 近似 公式 。 下 面 找寻 一 个 测量 更 新 的 公式 。 以 
PUY, ARE, REx 和 测量 值 y, 的 联合 分 布 也 是 服从 高 斯 分 布 的 ， 表 示 为 : 
N = ( S i Fal | Priel a (14 97) 
Vu i \ | ee ee Pini 
SSS Oe E 
联合 变量 联合 均值 联合 协 方差 矩阵 


其 中 ， X 1 定义 于 公式 (14. 95) 中 ， 给 定 序 列 Y,-1> Fn in-i 是 观测 值 yn 的 预测 佑 计量 ， 表 
示 为 


Fai = I bx,) NOX, 5 Šai » Pai) dX, (14. 98) 
非 线性 高 斯 分 布 
WY E pe BK 
新 息 协 方差 矩阵 乍 义 为 : 
| = a blx, )b’ (x,) N Cx, ; Kain- Pap ) dx, Fai Vega + Quin (14, 99) 
非 线性 测量 高 斯 分 布 估计 值 $,, WHR W 
与 自身 的 外 积 协 方差 矩阵 
最 后 ， 给 出 状态 x 和 测量 值 y, 的 互 协 方差 阵 矩 阵 
Paai 2 Pa = | x, b’ (x, ) N Cx, ; Kl 1 Pani ) dx， ~~ Xi Vint (14. 100) 
x 与 b(x ) 高 斯 分 布 估计 值 久 ,。， 
的 外 积 与 9 ， HOPE 


式 (14. 95)、 式 (14. 96) 、 式 (14. 98) 到 式 (14. 100) ， 这 五 个 积分 公式 针对 着 贝 叶 斯 滤波 器 近 
似 的 不 同方 面 。 然 而 ， 这 些 公式 都 不 相同 ， 它 们 的 被 积 函 数 有 一 个 共同 形式 ， 非 线性 函数 和 
相应 的 已 知 均值 、 协 方差 矩阵 的 高 斯 函数 的 乘积 。 所 以 ， 这 五 个 积分 使 用 数值 积分 法 提供 
近似 。 

最 重要 的 是 ， 状 态 的 滤波 估计 的 递归 计算 是 建立 在 线性 卡尔 曼 滤波 器 理论 上 的 ， 遵 循 以 下 
JL: 

。 卡尔 曼 增 益 按 以 下 公式 计算 


G, = Pani Py a (14. 101) 
。 收 到 新 的 观测 值 y, 的 基础 上 ， 状 态 x, 的 滤波 估计 预测 值 按 预测 -修正 公式 计算 
Kae = Raber + Gn (Yn — Fami) (14. 102) 
Xain Snl] Ueo Aa See 


ret 日 估计 phe 新 息 过 程 
i 
。 相应 地 ， 滤 波 估计 误差 的 协 方差 矩阵 按 下 式 计算 
Pin 一 P, — GP GT (14. 103) 
分 别 注 意 以 下 公式 的 一 致 性 : 新 的 非 线性 滤波 器 的 式 (14. 101)、 式 (14. 102)、 式 (14. 103) 和 卡 
尔 曼 滤器 的 式 (14. 31) 、 式 (14. 30) 、 先 前 未 编号 的 式 (14. 38) 。 在 任何 情况 下 ， 后 验 分 布 最 终 
能 按 如 下 定义 的 高 斯 分 布 来 计算 : 
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px, | Ya) 一 NOG Kan Pan (14. 104) 
其 中 ,均值 名 1, 定义 于 式 (14. 102) 中 ， 协 方差 矩阵 P, HAR 103) 定 义 。 

因此 , 已 经 开始 在 时 间 更 新 阶段 计算 先 验 分 布 p(x,-1 |Y,-1)， 通 过 测量 更 新 阶段 ， 递 归 循 
环 按 步 又 进行 ， 最 后 计算 后 验 分 布 p(x |Y,); 接 下 来 循环 按 需要 重复 进行 。 

显而易见 ， 这 个 新 的 非 线 性 滤波 器 称 为 数值 积分 卡尔 曼 滤 波 侨 (Arasaratnam and 
Haykin，2009)。 这 个 新 的 非 线性 滤波 器 的 重要 性 质 总 结 如 下 : 

1. UARA ERZI (CKF) 是 无 导数 在 线 逐 次 状态 估计 。 

2. 在 函数 数量 的 评估 中 ， 通 过 使 用 数值 积分 法 则 计算 的 矩 量 积分 的 近似 值 都 是 线性 的 。 
并 且 ， 在 数值 积分 法 则 中 的 点 和 相关 权 什 是 独立 于 式 (14. 84) SEA TE RP f(x) 的 ; AE, € 
们 能 够 被 非 在 线 的 计算 和 存储 以 提高 滤波 过 程 的 速度 。 

3. 与 EKF 一 起 ，CKF 的 计算 复杂 度 用 flops REHE, UM 增长， 其 中 M 是 状态 空间 的 
维 数 。 

4. 从 原理 的 角度 来 看 ，CKF 建立 在 卡尔 曼 滤 波 器 理论 上 ， 为 了 达到 和 提高 数字 的 精确 
度 ， 使 用 了 平方 根 滤波 的 方法 ; 这 个 合成 的 滤波 器 称 为 平方 根 数值 积分 卡尔 受 滤 波 器 
(SCKF) ， 它 传播 了 预测 和 后 验 误 差 协 方差 矩阵 的 平方 根 CArasaratnam and Haykin, 2009). 

5. 最 重要 的 是 ， 在 先 验 分 布 中 的 二 和 阶 矩 是 在 后 验 分 布 中 完全 保留 的 。 由 于 我 们 知道 的 关 
于 状态 的 信息 实际 上 是 包含 在 观测 值 中 的 ， 我 们 可 以 说 CKF 完全 保留 了 关于 状态 的 二 阶 信 息 ， 
该 信息 包含 在 观测 序列 中 ， 因 此 EKF 在 精确 度 和 可 信和 度 上 有 很 好 的 效果 。 

6. CKF 是 最 新 的 对 贝 叶 斯 渡 波 器 的 直接 近似 ， 它 最 大 程度 上 缓解 了 维 数 灾难 的 问题 ， 但 
是 ， 仅 靠 CKF 不 能 解决 这 个 问题 。 

在 这 些 性 质 的 结合 下 ， 数 值 积分 卡尔 曼 滤波 器 成 为 周期 性 多 层 感 知 器 的 有 监督 训练 的 受 关 
注 的 方法 ， 这 将 在 第 15 章 中 讨论 。 在 第 15 章 中 ， 我 们 也 提出 了 一 个 计算 机 实验 ， 它 清楚 地 证 
明了 这 个 新 的 强大 工具 的 实用 性 。 


14.8 粒子 滤波 器 


在 这 一 节 ， 我 们 将 通过 贝 叶 斯 滤波 器 的 间接 的 全 局 近似 ， 继 续 讨论 非 线性 滤波 问题 。 非 线 
性 滤波 的 第 二 种 方法 包含 的 基础 理论 (其 中 的 大 部 分 ， 并 非 全 部 )， 来 源 于 Monte Carlo 统计 
算法 (Robert and Casella，2004)。 粒 子 滤 波 器 是 这 一 新 类 型 的 非 线 性 滤波 器 中 的 最 好 的 例子 。 
最 重要 的 是 ， 粒 子 滤 波 器 已 经 成 为 一 个 解决 非 线性 滤波 问题 的 重要 工具 ， 因 为 它 能 应 用 于 很 多 
领域 ， 例 如 信号 处 理 、 雷 达 和 声音 媒体 的 目标 跟踪 、 计 算 机 视觉 、 神 经 计算 ， 这 里 只 列 出 一 
部 分 。 

在 详细 阐述 粒子 滤波 器 之 前 ， 先 引入 一 些 新 记 法 和 定义 。 令 X, 表示 所 有 的 目标 状态 序 
列 ix). SAXA, Y, 表示 所 有 观测 序列 {y;}:-,。 相 应 地 ， 我 们 可 以 表示 给 定 观 测序 
列 Y, 的 条 件 下 ， 所 有 状态 X, 的 联合 后 验 分 布 为 PX YD. ATX 表示 的 状态 序列 对 观测 
者 是 隐藏 的 ， 为 计算 式 (14. 84) 的 积分 ， 获 得 直接 从 后 验 分 布 p(X |Y,) 中 的 随机 取样 通常 是 
不 可 行 的 。 为 了 绕 开 这 个 实际 困难 ， 我 们 从 另外 一 个 分 布 中 取样 ， 这 一 分 布 称 为 工具 《in- 
strumental) 分 布 ， 或 者 重要 分 布 。 今 后 ， 这 个 新 的 分 布 用 qa(X。 |Y,) 来 表示 。 顺 其 自然 地 ， 
为 了 使 重要 分 布 能 够 有 效 地 代 兰 后 验 分 布 ，gCX, |Y,) 必 须 有 一 个 足够 广 的 支 集 ， 以 完全 包 
括 p(X | YY,) 的 支 集 。 
Monte Carlo 积分 

按照 所 请 的 重要 性 抽样 方法 ， 我 们 从 重要 性 分 布 aX, |Y.) 中 随机 地 抽取 NN 个 统计 独立 上 且 
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同 分 布 的 《idd) 样本 构成 一 个 集合 。 令 n 时 刻 随机 取出 的 样本 集 记 为 x* ,i 二 1,2,…,N 。 从 

零 时 刻 开始 直到 n Al, 一步 一 步 地 ， 在 状态 空间 中 根据 重要 性 分 布 gC(X, |Y), NTER 

踪 自 己 的 “轨迹 ”。 它 们 的 罗 迹 记 为 X? 了 了 ， 其 中 i 二 1,2,…,N, KART, Alen ORF IR 
下 面 ， 我 们 定义 重要 性 函数 为 


p(X, | Y,) 
r(X, |Y.) = g(x, YS (14. 105) 
然后 ， 利 用 式 (14. 84) 的 定义 ， 我 们 可 以 改写 贝 叶 斯 佑 计量 的 公式 
p(X, | Y,) 





Fi, = [axo (Bee yy a Yd, = [AXX [Yaa X, | Y) dx, (14. 106) 


其 中 ， 我 们 使 用 了 h(X,) 作 为 任意 函数 ， 为 了 使 它 和 粒子 滤波 的 术语 保持 一 致 性 。 
在 式 (14. 106) 的 贝 叶 斯 估计 量 上 运用 重要 性 取样 方法 ， 我 们 得 到 相应 的 Monte Carlo fh 
计量 
fi, (N) ~ Dw A(X?) (14. 107) 


Rp, w 是 重要 性 权重 ， 定 义 为 


ym A (XP — PX LY.) 
wi r(X®? |Y.) OCX |Y.) ， 


为 了 确保 Monte Carlo 估计 量 h, CN) 不 需要 知道 分 布 pCX |Y, ) 的 正规 化 常数 ， 这 可 能 号 致 很 
多 麻烦 或 者 无 法 计算 ， 所 以 通常 情况 下 我 们 需要 标准 化 重要 性 权 值 ， 使 得 它们 的 和 为 单位 一 。 
最 后 ， 我 们 改写 式 (14. 107) 估 计量 的 公式 


= 1,2, N (14. 108) 





N 
Â (N) = >) wPh(X®) (14. 109) 
i=1 
其 中 
we? 
we = 4, i= 1,2.,N (14. 110) 
Ss) aw? 


对 有 限 数量 的 粒子 ，N 个 ， 估 计量 上 (NM) 是 “有 偏 的 ”。 但 是 ， 在 渐进 的 意义 上 ， 我 们 发 
现 了 下 面 的 关系 (Doucet 等 ，2001) : 
lim A, CN) — h, (14.111) 
为 了 改进 重要 性 取样 方法 ， 我 们 可 以 按照 它 进行 重 采 样 的 第 二 阶段 ， 像 在 Rubin (1998) 
的 sampling-importance-resampling (SIR) 方法 中 那样 。 在 SIR 方法 的 第 一 个 阶段 ， 在 第 n 次 
循环 用 通常 的 方法 ， 随 机 地 从 重要 性 分 布 gaC(X, |Y,) 取 样 ， 得 到 一 个 iid 样本 集合 {XX 1, f 
着 根据 式 (14. 110) 计 算出 相应 的 标准 化 重要 性 权 值 集 合 {w2 六 :。 在 SIR 方法 的 第 二 个 阶段 ， 
第 二 个 样本 集合 表示 为 {(X? a, ge Mela, 考虑 到 标准 化 重要 性 权 值 
w 的 相关 强度 ; 实际 上 ， 每 一 个 权重 可 以 看 做 一 个 相关 桩 本 出 现 的 概率 。 取 样 的 第 二 个 阶段 
背后 的 基本 原理 可 以 归纳 为 : 


重 取样 的 第 二 阶段 取出 的 样本 Xe ， 它 的 标准 化 重要 性 权 值 ww 很 大 ， 很 有 可 能 服从 联合 
后 验 分 布 p(X, |Y,); 比 起 标准 化 重要 性 权 值 小 的 样本 ， 应 该 以 更 大 的 概率 选择 这 样 的 样本 。 


实现 SIR 的 方式 有 几 种 。Cappe (2005) 介绍 了 一 种 方法 ， 在 每 一 次 循环 中 我 们 进行 以 
下 操作 : 
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L 采样 。 随 机 地 从 重要 性 分 布 gC(X|Y) 中 抽取 一 个 NN 个 样品 {XX ”}) 六 | 的 iid BA. 
2. mR., HAAA 110)， 计 算 相 关 的 标准 化 权 值 {w”) 衬 :的 集合 。 


一 






~A BAR UBD Shi 


重要 性 (工具 ) 分 布 ..-” 


-5 a m 


重 采样 的 粒子 


图 14.5 对 样本 数 的 样本 进行 重 采样 过 程 的 说 明 ， 重 采样 6 个 样本 


3. GRE. 

G) 给 定 中 间 样 本 X? ,X2 ,…,XY ,条 件 独立 地 抽取 含 工 个 离散 随机 变量 I ye, 
I?) 的 集合 ， 从 集合 {1,2,…,N} 中 依 概 率 Cw? ww”) 取 值 ， 如 以 下 的 例子 所 示 : 

POIY =j)=w", j=1,2.0,N 
MT? se I 等 ， PLA, ALN, 

Gi) gO =X”, 其 中 一 1,2,… ,了 。 

$e (IP, I”, oe, [PO } 被 认为 是 多 项 式 实验 过 程 。 因 此 ， 根 据 SIR 方法 被 描述 为 一 种 
多 项 式 类 型 ， 可 以 从 图 14. 5 中 的 例子 L=N=6 中 看 到 。 

在 本 节 的 后 续 内 容 里 ， 我 们 将 会 讨论 重 采样 在 克服 重要 性 权 值 的 退化 问题 上 的 作用 。 然 
而 ， 使 用 重 采样 引 人 了 一 些 它 自身 的 实际 限制 : 

1. 重 采 样 限制 了 粒子 滤波 器 的 并 行 执行 的 范围 ， 这 是 由 这 一 过 程 的 本 质 决定 的 。 

2. 在 重 采样 期 间 ， 与 大 的 重要 性 权 值 相关 的 粒子 多 次 被 选择 ， 这 导致 了 粒子 多 样 性 的 损 
失 ; 这 一 现象 称 为 采样 枯竭 或 者 权 值 退化 。 例 如 ， 当 空间 状态 模型 的 动态 噪声 相对 小 时 ， 在 几 
次 循环 后 ， 所 有 的 粒子 可 能 会 最 终 崩 省 断裂 成 一 个 粒子 ， 这 显然 是 我 们 不 希望 看 到 的 。 

3. 始终 不 变 的 是 ， 重 采样 增加 了 Monte Carlo 佑 计量 的 方差 。 
顺序 重要 性 采样 

在 式 (14. 109) 中 提 及 的 Monte Carlo 估计 量 久 CN)， 由 重要 性 采样 方法 得 到 ， 对 任意 档 数 
A(X.) 的 贝 叶 斯 估计 量 皮 的 近似 ， 提 供 了 一 个 计算 上 可 行 的 解 ， 因 此 ， 满 足 我 们 非 线性 滤波 天 
目标 的 第 一 个 实际 要 求 ， 这 点 在 前 面 给 出 了 详细 的 说 明 。 然 而 ， 仍 然 需要 满足 第 二 个 要 求 ， 
Monte Carlo 估计 量 的 递归 实现 。 

不 幸 地 ， 重 要 性 采样 方法 的 简单 形式 不 满足 递归 计算 的 需要 。 这 是 因为 在 我 们 对 后 验 分 布 
DA, |Y,) 做 估计 之 前 ， 需 要 完整 的 观测 序列 ， 用 Y, 表示 。 特 别 地 ， 每 得 到 一 个 新 的 观测 值 
y, ， 需 要 对 整个 状态 序列 X, 计算 重要 性 权 值 { 忌 ?2 ) 六  。 为 了 满足 这 个 需求 ， 重 要 性 采样 过 程 的 
计算 复杂 度 将 会 随 着 时 间 ”继续 增加 ， 这 显然 是 不 切实 际 的 。 为 了 解决 这 个 计算 上 的 困难 ， 我 
们 采样 重要 性 采样 的 一 个 顺序 实现 ， 通 常 称 为 序 贯 重要 性 采样 《SIS) 。 

为 了 描述 SIS 程序 的 基本 原理 ， 首 先 我 们 用 式 (14. 80) 的 时 间 更 新 和 式 (14. 81) 的 测量 更 新 
去 消除 预测 分 布 ， 这 里 我 们 用 p(X, Ya) pX |Y,-1) 分 别 代 替 p(x |Y,- 和 
p(X,_1|1Y,_1) 以便 和 粒子 滤波 器 的 术语 一 致 。 因 此 我 们 得 到 
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p(X, |Y.) = | Fb Ke | x Ln | x) PX | Yer ) dx 


更 新 后 验 (14. 112) 
= p(X |Y) 
|> (Xn | X 1) Ly, | Xn) IX Y,) q(X, | Yn) dx, i 
先 验 似 然 函数 重要 性 分 布 


在 等 式 的 第 一 行 中 ， 我 们 将 似 然 函 数 Ley, |x,) 移 到 了 积分 内 ， 在 马尔 可 夫 假 设 下 ， 它 独立 于 先 
前 的 状态 值 x 在 等 式 的 第 二 行 中 ， 引 入 了 重要 性 分 布 gCX, |Y.)。 在 重要 性 采样 的 框架 下 ， 
多 个 项 的 乘积 


a p(X. |Y) 
ZP On |x,-1 2Cy, | Xn) CR 


EE n 时 刻 关 于 重要 性 分 布 的 重要 性 权 值 。 特 别 地 ， 由 于 Z 是 一 个 常数 ， 可 以 写 为 
oe PORE | Xr LY, [xr pK | Ya) 





ws G(X Y) (14. 113) 
这 里 cc 表示 成 比例 。 
假设 现在 按 以 下 的 方式 选择 重要 性 分 布 ， 在 式 (14. 113) 中 的 分 母 中 ， 因 式 分 解 
XÈ |Y = qK | Ye gx? | XE Yn) (14.114) 


对 所 有 的 i 成 立 。 然 后 ， 来 自重 要 性 分 布 aC(X |Y,) 的 更 新 后 的 样品 序列 ， 简 单 地 通过 以 下 方 
式 获 得 ， 得 到 一 个 新 的 观测 值 y,， 用 新 重要 性 分 布 9(xs”| Xs2, ,y,) 的 样本 序列 ， 来 增 大 从 重要 
性 分 布 aX |Y,_1) 中 提取 的 旧 样 本 序列 。 因 此 ， 式 (14.114) 可 以 看 做 序 贯 重要 性 采样 的 
“把 戏 ”。 在 任何 情况 下 ， 在 式 (14. 113) 中 使 用 式 (14. 114) 的 分 解 ， 我 们 得 到 
旋 (X |Y) w POR | Xe Cy, | xe?) 
qa (X$ Rasa q(x? |X@, Vy.) 
— ASMA. ERT Ra 中， 只 有 一 个 后 验 分 布 p(X |Y,) 的 滤波 估计 。 
在 这 种 情况 下 ， 我 们 可 以 设 

q(x? | Xe yn) = q(x? | xy ) 对 于 所 有 的 
和 p(x? |Xe)。 在 这 种 情况 下 ， 我 们 只 需要 保存 当前 状态 x*， 因 此 丢弃 旧 的 轨迹 X,~! 和 观 
WHY, 的 相关 历史 记录 。 相 应 地 ， 更 新 重要 性 权 值 的 式 (14. 115) 化 简 为 


wË? oc 


(14. 115) 


wW o wid, XEADA 对 于 所 有 的 i (14. 116) 
AL Re q(x‘? a can ) 
(oe 
Pade a. 增 量 修正 因子 
权 值 权 值 


其 中 ，cc 表 示 成 比例 。 式 (14. 116) 是 在 时 间 上 递归 的 估计 标准 化 重要 性 权 值 的 一 个 必要 公 
st; 它 满足 非 线性 滤波 目标 的 第 二 个 要 求 ， 粒 子 滤波 器 的 递归 实现 。 特 别 地 ，SIS 程序 在 每 
一 个 时 间 步 又 中 ， 每 当 获 得 一 个 新 的 观测 值 就 传播 重要 性 权 值 。 式 (14. 116) 等 号 右边 的 乘 
法 因子 ， 人 允许 “ 提 的 ”重要 性 权 值 在 时 间 步 又 中 ， 当 获得 新 的 观测 值 y, 时 被 更 新 ， 这 个 
因子 称 为 增 量 修正 因子 。 
显然 ， 序 贯 重 要 性 采样 应 用 于 后 验 分 布 p(x |Y,) 的 Monte Carlo 估计 同样 有 好 的 效果 ; 根 
据 式 (14. 112) 和 式 (14. 116)， 可 以 写作 


N 
p(x, lY) ~ >) wd x, — x2) (14. 117) 
i=l 


这 里 (x, xP) AME RRAB BK, 它 是 位 于 x, =x? 对 i 二 1,2,…,N， 并 且 对 滤波 情 沈 ， 
根据 式 (14. 116) 更 新 权 值 。 随 着 粒子 的 数量 N， 趋 近 于 无 穷 ， 式 (14. 117) 的 估计 值 接近 于 真实 
的 后 验 分 布 p(x | YY,)。 
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权 值 退化 问题 

重要 性 分 布 q (X, |Y,) 扮演 着 粒子 滤波 器 设计 方面 的 关键 和 角色。 由 于 它 与 后 验 分 布 
PX. | Y,) 总 是 不 同 ， 我 们 发 现 式 (14. 108) 中 定义 的 重要 性 权 值 的 方差 ， 能够 仅仅 随 着 时 间 的 
增加 而 增 大 。 这 个 现象 ， 在 使 用 序 贵 重要 性 采样 时 遇 到 过 ， 从 而 导致 了 之 前 提 及 的 权重 值 退 化 
问题 。 

直觉 上 的 权 值 退化 问题 的 解释 ， 在 时 间 步 又 中， 考虑 一 个 具有 标准 化 重要 性 权 值 w 的 
粒子 Xe 。 根 据 定义 ， 一 个 小 的 权 值 意味 着 粒子 w CAMB BED CX, |Y,) 中 取样 得 到 ， 
以 一 个 合适 的 距离 远离 后 验 分 布 p(X, |Y,) 的 主体 ， 因 此 意味 着 这 个 特别 粒子 的 分 布 对 式 
(14. 109) 里 的 Monte Carlo 估计 量 h, CN) 不 起 作用 。 当 退化 问题 变 得 严重 时 ， 有 大 量 的 不 起 作 
用 的 粒子 ， 结 果 导 臻 Monte Carlo 估计 量 记 CN) 在 统计 上 和 计算 上 一 样 是 没有 效率 。 在 这 种 情 
况 下 ， 少 数量 的 粒子 承担 起 计算 的 责任 。 然 而 更 严重 的 是 ， 随 着 时 间 步 骤 ”的 增加 ， 我 们 发 现 
在 粒子 总 体 的 多 样 性 减少 ， 并 且 估 计量,(N) 的 方差 增 大 ， 构 成 了 一 个 不 好 的 情 帝 。 

为 了 警惕 序 贯 重要 性 采样 中 的 权 值 退化 问题 ， 我 们 显然 需要 一 个 退化 度量 。 有 了 这 个 度量 
的 概念 ，Liu(1996) 定义 了 一 个 有 效 的 样本 大 小 为 


N 
Na = [wR (14. 118) 


其 中 wi? 是 式 (14. 110) 中 的 标准 化 重要 性 权 值 。 应 用 这 个 简单 的 公式 时 ， 需 要 考虑 两 个 极端 的 
情况 : 

1. 当 N 权 值 的 分 布 都 是 均衡 的 ， 对 所 有 的 i，w* 二 1/N， 这 时 Nu 二 入。 

2. 除了 一 个 权 值 是 单位 元 的 ， 所 有 的 N 个 权 值 都 为 零 ， 在 这 种 情况 下 ,Nu 二 1。 

继续 遵循 以 上 原则 ， 因 此 ，Nsr 的 取 值 范围 是 L1，N]。 特 别 地 ， 一 个 小 的 Net 值 意味 着 权 
值 退化 的 一 个 严重 情况 ， 反 之 亦 然 。 

因此 关键 问题 为 : 


意识 到 在 序 贯 重要 性 采样 中 的 权 值 退化 问题 是 规则 而 不 是 例外 ， 我们 起 么 能 解决 它 呢 ? 


这 个 基础 问题 的 回答 包含 在 本 节 之 前 讨论 的 重 采样 的 使 用 中 。 例 如 ，、 粒 子 滤波 右 算 法 的 算 
法 的 公式 化 可 以 包含 一 个 规定 的 阔 值 ， WA Nw:。 当 有 效 的 样品 大 小 Nak TR Nato SIS 
程序 暂时 的 停止 并 且 运 用 重 采 样 步骤 ， 而 后 SIS 程序 再 继续 执行 ;这 个 过 程 将 重复 进行 直到 泪 
US He HE Ik 
采样 重要 性 重 采 样 粒 子 滤 波 器 

第 一 次 粒子 滤波 器 的 粒子 实现 是 Gordon、Salmond and Smith (1993) 记录 的 ， 当时 命名 
为 “bootstrap 滤波 器 ”。 在 Gordon, Salmond, Smith 的 论文 发 表 之 前 ， 序 贯 重要 性 采样 中 的 
权 值 退化 的 严重 问题 ， 既 没有 清楚 的 定义 也 没有 令 人 满意 的 解决 方法 。 在 1993 年 的 论文 中 ， 
权 值 退化 问题 通过 一 个 复原 过 程 被 解决 ， 依 靠 删 去 相关 权 值 小 的 粒子 ， 权 值 大 的 粒子 不 仅 保 
留 下 来 而 且 被 复制 ， 这 点 在 很 大 程度 上 与 传统 的 非 序 贯 采 样 过 程 相 同 。 的 确 ， 由 于 这 个 原 
H, ME bootstrap 滤波 器 一 般 被 认为 是 采样 重要 性 重 采 样 (SIR) 滤波 器 。 这 段 简要 的 历史 
记录 中 的 重要 的 一 点 是 ，SIR 滤波 器 是 第 一 个 成 功 使 用 Monte Carlo 模拟 进行 非 线性 滤波 的 
LE AH . 

SIR 滤波 器 的 实现 简单 ， 因 此 经 常用 于 解决 非 线 性 滤波 问题 。 这 一 滤波 器 有 两 方面 与 众 不 
同 的 特色 : 

1. 将 先 验 分 布 视 为 重要 性 分 布 。 检 查 为 式 (14. 116) 更 新 权 值 的 递归 公式 ， 我 们 看 到 重要 
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性 分 布 的 定义 是 靠 如 何 选择 等 式 右 边 的 分 母 q(x | x2 y,) 来 确定 的 。 在 SIR 滤波 器 中 ， 这 
个 选择 是 依据 下 面 的 公式 得 出 
g(x, |X Ya) = p(x, |x) (14. 119) 
其 中 ,在 的 等 式 的 右边 ，p(x, |x,_1) 是 先 验 分 布 或 者 状态 转移 分 布 。 实 际 上 ，SIR 滤波 器 盲目 
地 从 先 验 分 布 p(x, |x,_1) 中 取样 ， 完 全 忽略 了 包含 在 观测 值 y, 中 的 关于 状态 x HAD. A 
(14. 119) 由 蕊 尔 可 夫 假 设 产 生 。 
2. 采样 重要 性 重 采样 。 在 SIR 滤波 器 中 ， 重 采样 被 运用 在 非 线 性 滤波 器 过 程 的 每 一 个 时 
间 步 又 ;因此 ， 由 式 (14. 116) 我 们 得 到 
re =1/N, 4i=1,2,°,N (14. 120) 
因为 1/N 是 一 个 常数 ， 它 可 以 被 忽 赂 。 因 此 ， 需 要 在 式 (14. 116) 的 增 量 修正 因子 随时 间 的 黑 
积 就 不 再 需要 了 。 
因此 ， 在 式 (14. 116) 中 运用 式 (14, 119) 和 式 (14. 120) 得 到 一 个 更 简单 的 公式 
wË? cc lly, |x), 当 一 1 2 六 (14.121) 
这 里 Ly, [x@ ) 是 观测 值 y 的 似 然 函数 ， 给 定 粒 子 i 的 状态 x 。 自 然 地 ， 重 要 性 权 值 标准 化 的 
计算 ， 用 到 式 (14. 121) 的 概率 ，SIR 滤波 算法 的 每 一 个 重 采样 步 又 之 后 执行 的 。 表 14. 5 总结 
T SIR 滤波 器 。 


表 14.5 粒子 滤波 的 SIR 算法 总 结 


记 法 

粒子 用 i 二 1,2,… ,NN 来 表示 ， 其 中 N 是 粒子 的 总 数 。 

初始 化 

给 定 状态 分 布 p(x) Al x 的 初始 值 xx。 ， 随 机 取样 

X ~ px) 

其 中 记号 “xz 一 加 是 “z 是 分 布 b 的 一 个 观察 值 ” 的 简写 设置 初始 权 值 


其 中 i= 1.2.0 N.a 


Tt SEPM (HER n = 1,2,3,… FRI FER i 1,2. N, 做 如 下 操作 : 
1. 重要 性 分 布 定义 为 
g(x, | x61 ,yn) 一 户 (Xn | x$21) 
其 中 假设 已 知 先 验 分 布 pcx, |x), W 
x) ~ plxn | x421) 
2. 计算 重要 性 权 值 
wi) = L(y | x ) 
其 中 也 假设 似 然 函 数 (ys | x 号 ) 已 知 ， 因 此 ， 计算 标准 化 权 值 


w 


— oN 
2 wR 
3. ERK, ee i {rTP bn 3 Oya 在 相关 集合 {1,2,°" N} 中 依照 以 下 概率 取 值 : 
PCI? =)=w 
因此 ， 集 合 
XO = xl? 
并 且 
{2) — 1 


we =P 


4. 继续 计算 直到 滤波 完成 。 


0 
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从 以 上 的 讨论 中 ， 显 然 在 SIR 滤波 器 公式 化 中 的 假设 是 轻 度 的 ， 总 结 如 下 : 

1. 式 (14. 1) 的 过 程 模型 中 的 非 线 性 丽 数 aC ,*)， 以 及 式 (14.2) 的 测量 模型 中 的 非 线 性 沙 
数 b,(。 ,，)， 两 者 必须 都 是 已 知 的 。 

2. 确定 先 验 分 布 p(x, |x,_1) 和 需要 式 (14. 1) 的 动态 噪声 omn 的 统计 学 知识 ; 从 动态 噪声 o, 
的 基础 分 布 中 抽取 样本 〈 粒 子 ) ， 也 必须 是 允许 的 。 

3. AER (14.121) PRR ly, | )， 必 须 是 已 知 的 ， 反 过 来 ， 这 意味 着 在 
RAL 2) 中 的 测量 噪声 w 的 统计 信息 是 可 得 到 的 。 

另外 在 SIR 滤波 器 〈 就 此 而 言 ， 对 任何 粒子 滤波 器 ) 的 设计 中 需要 提出 的 另 一 个 问题 是 粒 
子 个 数 N 的 合适 值 的 选择 。 一 方面 ，N 应 该 足够 的 大 以 满足 式 (14. 111) 渐 进 的 结果 。 另 一 方 
面 ， 由 于 在 滤波 的 每 一 个 时 间 步 又 粒子 同时 行动 ，N 应 该 足够 的 小 以 便 将 计算 负担 控制 在 可 处 
理 的 水 平 上 。( 这 里 ， 我 们 假设 在 重要 性 采样 和 重 采 样 操 作 之 后 ， 粒 子 的 个 数 保 持 着 相同 的 值 
N.) 因此 N 值 的 选择 必须 在 两 个 冲突 情况 下 做 一 个 “ 折 中 ”， 这 个 问题 只 有 在 一 个 问题 解决 
的 基础 上 得 到 解决 。 
重要 性 分 布 的 最 佳 选 择 

先 验 分 布 p(x, |X%,-1) 为 选择 重要 性 分 布 提供 了 一 个 有 吸引 力 的 方法 ， 正 如 在 SIR VER a 
的 情况 下 。 然 而 ， 一 个 粒子 滤波 器 设计 的 选择 ， 可 能 导致 在 不 利 条 件 下 的 不 良 的 表现 。 例 
如 ， 如 果 输 入 数据 被 异常 值 所 于 扰 的 情况 下 恶化 ， 我 们 拥有 “无 信息 ”的 观测 值 ， 并 且 如 采 
测量 噪声 的 方差 小 ， 那 么 我 们 就 有 “非常 翔实 ”的 观测 值 。 这 时 在 给 定 观 测 值 的 情况 下 ， 有 
一 个 潜在 的 错 配 存在 于 状态 的 预测 先 验 分 布 和 后 验 分 布 之 间 。 为 了 用 “最 佳 ” 形 式 缓和 这 种 
错 配 ， 粒 子 应 该 在 重要 性 分 布 之 下 ， 选 择 移动 到 状态 空间 ， 这 被 定义 为 《Doucet 等 ，2000; 
Cappé 等 ，2007) 

DCX, | XL Cy, | Xa) (14. 122) 
[pn [x LCy, | 4) dx, 


这 个 重要 性 分 布 的 特殊 的 选择 是 最 优 的 ， 在 这 个 意义 上 权 值 的 条 件 方差 为 零 时 ， 给 定 了 粒子 先 


q(X, | Xm ee on = 


前 的 历史 记录 。 
用 式 (14. 122) 替 换 式 (1. 116) 的 SIS 公式 中 ， 得 到 权 值 更 新 的 公式 
cc wis | po | xa | x21) Cyn LX) dx, (14. 123) 
更 新 的 日 的 先 验 rere 
AX {EL AN tE 
其 中 ， 我 们 看 到 增 量 修正 因子 〈 如 积分 项 ) ， 仅 仅 取 决 于 被 提议 的 粒子 x21 的 “过 去 ”的 位 置 
和 当前 的 观测 值 y © 


式 (14. 123) 的 最 优 公式 和 式 (14. 121) 的 SIR 公式 的 一 个 重要 不 同 点 是 : 在 SIR 滤波 器 中 ， 
在 状态 空间 中 允许 粒子 盲目 的 移动 ， 然 而 在 式 (14. 122) 的 最 佳 重 要 性 分 布下 ， 粒 子 允 许 在 后 验 
分 布 有 大 量 的 高 概率 的 位 置 上 育 类 ， 这 个 显然 是 我 们 希望 看 到 的 情 帝 。 

然而 ， 在 式 (14. 122) 中 定义 的 最 优 重要 性 分 布 计算 法 可 能 并 不 是 直接 能 进行 的 ， 除 了 在 一 
些 特殊 的 情况 下 。 比 如 ， 在 一 类 状态 空间 模型 中 ， 条 件 分 布 p(x | X21,y,) 是 高 斯 分 布 ， 选 择 
最 优 重 要 性 分 布 去 设计 一 个 粒子 滤波 器 的 确 是 可 行 的 《Doucet 等 ，2000)。 


14.9 计算 机 实验 : 扩展 的 卡尔 曼 滤 波 器 和 粒子 滤波 器 对 比 评价 
比较 评价 的 实验 设置 是 建立 在 非 线性 高 斯 动态 系统 的 状态 空间 模型 之 上 的 ， 该 模型 用 以 下 
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两 个 等 式 描 述 : 
RA ORE) 模型 : 


省 Q. DL] 十 


测量 〈 观 测 值 ) 模型 : 


208) 


ETA + 8cos(1. 2(n—1)) +a, 


ae ae 
Yn aor T Va 


在 这 个 系统 中 ， 动 态 品 声 w, 服从 高 斯 分 布 NCO0，1) ， 测 量 噪声 mw 也 服从 高 斯 分 布 N(C0，1)。 状 
态 的 真实 最 初 值 为 ze 一 0. 1。 

粒子 滤波 器 的 STR 版 本 应 用 于 实验 中 。 以 下 的 实验 条 件 应 用 在 EKF 和 SIR 滤波 器 中 : 

模仿 状态 轨迹 : 50 个 时 间 步 长 

独立 的 Monte Carlo 运行 的 数量 : 100 

滤波 估计 的 最 初 什 : Tojo 二 N(xo。，2) 

SIR 粒子 滤波 器 的 说 明 如 下 : 

。 粒子 的 数量 N 的 值 是 100。 

。 在 滤波 过 程 的 每 个 时 间 步 又 中 运用 重 采 样 ， 随 后 进行 重要 性 权 值 的 标准 化 。 

。 先 验 (如 状态 转换 ) 分 布 应 用 于 重要 性 分 布 中 。 

EFK 滤波 器 和 SIR 粒子 滤波 器 的 实验 结果 分 别 在 图 14.6 和 图 14.7 中 给 出 。 在 每 个 图 
中 ， 实 线 曲 线 表示 真实 的 状态 ， 标 记 为 星 号 的 点 表示 运行 50 次 的 平均 结果 。 在 图 14.6 和 
图 14.7， 较 高 的 和 较 低 的 用 虚线 连 成 的 曲线 分 别 表示 用 EKF 和 PF 生成 的 状态 估计 的 置信 
区 间 。 





s 1015. 20 25 30 35 40 45 50 
了 时间 步 长 n 


图 14.6 扩展 的 卡尔 曼 滤波 器 (EKF) 的 总 体 平均 状态 的 估计 2， 绘制 成 曲线 ， 用 连续 的 * 后 
标记 。 较 高 的 和 较 低 的 虚线 连 成 的 曲线 (在 估计 值 的 附近 )， 表 示 由 扩展 的 卡尔 曼 滤 
波 器 生成 的 状态 估计 的 置信 区 间 。 连 续 的 曲线 是 状态 随 着 时 间 = 的 真实 变化 过 程 


通过 检查 这 两 张 图 ， 揭 示 了 如 下 的 观察 结果 : 
。 对 于 EKF， 状 态 滤波 估计 的 平均 轨迹 明显 的 偏离 了 真实 的 轨迹 。 


ww ai bbt.com 000000 





492 ' 第 14 章 动态 系统 状态 估计 的 贝 叶 斯 滤波 





5 10 15 20 2 30 35 40 45 50 
时 间 步 长 n 


图 14.7 SIR 粒子 滤波 器 的 总 体 平均 状态 的 估计 各 ,绘制 成 曲线 ， 用 连续 的 * 点 标记 。 较 高 的 
和 较 低 的 虚线 连 成 的 曲线 (在 估计 值 的 附近 )， 表 示 由 粒子 滤波 器 CPP) 生成 的 状态 
估计 的 置信 区 间 。 连 续 的 曲线 是 状态 随 着 时 间 ”的 真实 变化 过 程 
。 另 一 方面 ， 从 SIR 粒子 滤波 器 计算 出 来 的 对 应 的 平均 轨迹 ， 与 真实 的 轨迹 非常 接近 ，。 
另 一 个 实验 的 结果 是 关于 粒子 滤波 器 的 ， 在 图 14. 8 中， 状态 的 滤波 估计 的 均 方 误差 的 平 
方 根 (RMSE), MŽ SIR 粒子 滤波 器 中 使 用 的 粒子 数量 的 变化 曲线 被 绘制 。 我 们 看 到 RMSE 
最 初 是 很 高 的 ， 随 着 粒子 数量 的 增 大 而 逐渐 减少 ， 同 时 粒子 的 数量 在 增加 。 粒 子 数量 超过 N= 
100 时 ，RMSE 没有 显著 的 变化 ; 在 实验 中 为 SIR 滤波 器 选择 N=100 个 粒子 ， 因 此 得 到 了 
HE AH 。 


RMSE 
O 
‘© 


0.5 
0 100 200 300 400 500 


粒子 数量 


图 14.8 绘制 了 由 SIR 粒子 滤波 器 生成 的 均 方 误差 的 平方 根 (RMSE) 随 粒 子 数 量 的 变化 的 
变化 情况 ;点 。 是 通过 实验 计算 得 到 的 
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14.10 ”大脑 功能 建 模 中 的 卡尔 曼 滤 波 


到 现在 为 止 本 章 的 讨论 集中 于 卡尔 曼 滤 波 器 的 理论 ， 随 后 是 贝 叶 斯 滤波 器 和 它 的 近似 形 
式 。 这 样 做 ， 我们 着 重 强调 了 这 些 滤 波 器 以 自己 的 方式 进行 逐次 状态 估计 的 实际 功效 。 在 这 一 
节 中 ， 我 们 将 综述 类 卡尔 曼 滤 波 器 在 不 同 的 大 脑 功能 建 模 中 的 应 用 (Chen 等 ，2007) 。 
视觉 识别 的 动态 模型 

视觉 的 皮层 包括 一 个 层 状 绪 构 层 次 OA V1 到 V5) 和 大 量 的 连接 ， 这 些 连 接 处 于 皮层 内 
以 及 皮层 和 视觉 丘脑 之 间 〈 如 外 侧 膝 状 体 核 ， 或 者 LGN); 对 于 视觉 系统 中 的 这 一 部 分 的 一 个 
简要 概括 ， 请 参见 第 12 章 的 参考 文献 。 特 别 地 ， 视 觉 皮层 被 赋予 了 两 个 重要 解剖 学 的 属性 . 
(Chen 等 ，2007): 

。 反馈 的 大 量 使 用 。 视 觉 皮层 的 任意 两 个 位 置 的 连接 是 相互 的 ， 因 此 调节 向 前 以 及 反馈 

信和 号 的 传输 。 

。 分 层 多 尺度 结构 。 视 觉 皮 层 范围 内 的 下 区 细胞 的 感受 域 ， 只 跨越 视觉 区 域 的 一 小 部 分 ， 
反之 ， 高 区 细胞 的 感受 域 的 大 小 增 大 ， 直 到 它们 跨越 了 几乎 整个 视觉 区 域 。 正 是 这 个 
约束 网 络 使 得 它 可 以 在 高 维 的 数据 空间 ， 为 全 连接 的 视觉 皮层 ， 用 数量 减少 了 的 自由 
参数 进行 预测 ， 因 此 这 是 一 个 计算 上 有 效率 的 方法 ，。 

从 1997 年 到 2003 年 期 间 的 一 系列 的 研究 ，Rao 和 他 的 合作 者 开发 了 这 两 个 性 质 ， 来 构建 

一 个 视觉 识别 的 动态 模型 ， 以 及 了 解 到 这 一 构想 根本 上 是 一 个 非 线 性 的 动态 过 程 。 视 觉 识 别 的 
Rao-Ballard 模型 是 一 个 分 层 组 织 的 神经 网 络 ， 每 一 个 中 级 分 层 接收 到 两 种 信息 : 来 自 于 前 一 
层 的 自 下 而 上 信息 水 平 以 及 来 自 于 较 高 层 的 自 上 而 下 的 信息 。 为 了 它 的 实现 ， 这 个 模型 用 一 个 
多 尺度 估计 算法 ， 可 能 被 看 做 一 个 其 扩展 的 卡尔 曼 滤 波 器 里 的 分 层 形式 。 特 别 地 ， 通 过 一 个 动 
态 环境 下 的 视觉 实验 ，EKF 被 同时 用 作 学 习 模 型 的 前 馈 、 反 馈 和 预测 参数 。 由 此 产生 的 适应 
过 程 运行 在 两 个 不 同 的 时 间 尺 度 上 : 

。 快速 动态 状态 估计 过 程 允许 这 个 动态 模型 去 预计 传人 的 刺激 。 

。 慢 速 Hebb 学 习 过 程 ， 为 突 触 权重 模型 提供 了 调整 。 

特别 地 ，Rao-Ballard 模型 可 以 看 做 一 个 EKF 神经 网 络 的 实现 ， 在 各 个 层 之 间 使 用 日 顶 回 
下 的 前 馈 ， 并 且 能 够 对 静态 图 像 和 随时 间 变 化 的 图 像 序列 ， 训 练 视觉 感受 野 。 这 个 模型 非常 有 
吸引 力 ， 这 是 由 于 它 简单 性 和 灵活 性 ， 但 是 功能 很 强大 。 首 先 ， 它 允许 视觉 感知 的 贝 叶 斯 解释 
(Knill and Richards, 1995; Lee and Mumford, 2003), 


声音 流 分 离 的 动态 模型 

众所周知 ， 在 计算 神经 科学 的 文献 中 ， 听 党 感知 与 视觉 感知 有 着 许多 相同 的 特征 Sham- 
ma，2001)。 特 别 地 ，Elhilali (2004) 提出 了 计算 听 党 场景 分 析 框 架 下 的 声音 流 分 离 问 题 
(CASA) 。 在 其 中 描述 的 计算 模型 中 ， 隐 藏 向 量 包 含 了 一 种 声音 流 的 区 间 GHA) 表示 法 ; 观 
测 值 由 一 个 特征 向 量 的 集合 或 者 从 声音 的 混合 体 中 得 到 的 声学 线索 (如 音 高 和 开始 )。 由 于 声 
音 流 的 暂时 的 连续 性 是 一 个 重要 的 特性 ， 它 能 够 用 作 于 构建 系统 状态) 模型 。 测 量 模型 描述 
了 含有 皮层 模型 参数 的 皮层 滤波 过 程 。 这 个 动态 声音 流 分 离 的 基础 组 成 部 分 包括 以 下 两 个 方 
H: 第 一 ， 在 每 个 时 间 点 ， 推 断 声 音 模 式 的 分 布 为 流 的 一 个 集合 ; 第 二 ， 给 定 新 的 观测 值 ， 佑 
计 每 个 聚 类 的 状态 。 第 二 个 估计 问题 已 经 用 卡尔 曼 滤波 器 的 操作 解决 ， 第 一 个 聚 类 问题 已 经 用 
类 Hebb 竞争 性 学 习 的 操作 解决 。 

卡尔 曼 滤 波 器 的 动态 本 质 不 仅 对 于 声音 流 分 离 是 很 重要 的 ， 而 且 对 于 声音 定位 和 跟踪 也 同 
样 重要 。 所 有 的 这 些 都 被 视 为 有 效 听 党 的 关键 成 分 (Haykin and Chen, 2006). 
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小 脑 和 运动 学 习 的 动态 模型 

小 脑 在 运动 的 控制 和 协调 中 起 到 了 非常 重要 的 作用 ， 通 常 进行 得 非常 平稳 并 且 几 乎 毫 不 费 
力 。 在 文献 中 ,已 经 提 到 小 脑 扮演 着 动态 状态 估计 的 控制 者 或 者 神经 模拟 的 角色 。 支 持 动 态 状 
态 估计 假设 的 关键 点 包含 在 以 下 的 叙述 中 ， 它 的 有 效 性 已 经 被 数 十 年 的 自动 跟踪 和 指导 系统 设 
计 的 研究 所 证 实 : 


任何 一 个 生物 或 者 人 造 的 系统 ， 需 要 预测 或 控制 一 个 多 元 动态 系统 的 随机 轨迹 ， 可 以 通过 
使 用 或 引用 的 卡尔 受 滤 波 的 本 质 在 这 种 或 其 他 方式 下 才能 有 效 。 


建立 在 这 个 关键 点 之 上 ，Paulin (1997) 发 表 了 一 些 关 于 支持 小 脑 是 一 个 动态 状态 佑 计 值 
的 神经 模拟 的 假设 的 证 据 。 特 别 是 Paulin 证 据 的 有 一 行 表述 了 关于 前 庭 眼 反 射 (VOR, EF 
眼球 运动 系统 的 一 部 分 。VOR 的 作用 是 去 维持 视觉 图 像 的 稳定 性 “如 视网膜 ) 通过 与 脑袋 旋 
转 相 反 的 眼睛 的 转动 ， 这 点 在 之 前 的 前 言 部 分 已 经 讨论 过 的 那样 。 这 个 功能 调节 包括 小 脑 皮层 
和 前 庭 的 核子 的 神经 网 络 。 从 14. 3 节 的 讨论 中 ， 我 们 知道 卡尔 曼 滤波 器 是 一 个 最 佳 的 线性 系 
统 ， 且 伴 通过 噪声 测量 ， 预 测 一 个 动态 系统 状态 轨迹 的 方差 最 小 ; 给 出 一 个 对 于 潜在 的 系统 动 
态 的 假设 模型 ， 它 通过 估计 特别 的 状态 轨迹 做 到 上 述 这 些 。 这 个 策略 的 结果 是 ， 当 动态 系统 源 
自 于 假定 模型 ， 卡 尔 曼 滤波 器 产生 一 种 预测 的 估计 错误 ， 这 个 错误 可 能 归 因 于 滤波 器 “相信 ” 
假定 模型 而 不 是 真实 的 感觉 数据 。 根 据 Paulin (1997)， 此 类 估计 错误 在 VOR 行为 中 被 观 
测 到 。 
总 结 归 纳 

总 之 ， 卡 尔 曼 滤波 器 的 预测 修正 的 属性 使 它 成 为 一 个 对 计算 神经 建 模 中 的 预测 编码 问题 的 
潜在 有 用 的 候选 方法 ， 这 就 是 在 动态 环境 下 自主 的 大 脑 功能 的 一 个 基础 属性 。 同 样 需要 注意 到 
的 重要 问题 是 ， 在 之 前 提 及 的 例子 中 ， 假 设 神经 系统 〈 如 小 脑 或 者 新 大 脑 皮层 ) BERBER 
器 的 神经 模拟 ， 它 并 不 意味 着 在 物质 层面 上 ， 神 经 系统 类 似 于 卡尔 曼 滤波 器 。 一 般 来 说 ， 生 物 
系统 的 确 表 现 出 一 些 状态 估计 的 形式 ， 并 且 相 关 的 神经 算法 可 能 含有 卡尔 曼 滤 波 器 的 一 般 的 
“特征 ”。 此 外 ， 一 些 貌 似 合 理 的 状态 估计 形式 广泛 分 布 在 中 心神 经 系统 的 其 他 部 分 。 


14.11 ”小结 和 讨论 


本 章 讨 论 的 主题 是 ， 给 定 一 个 依赖 于 状态 的 观测 值 序列 ， 估 计 动 态 系统 中 未 知 的 《隐藏 
的 ) 状态 。 解 决 这 个 问题 的 基础 在 于 状态 空间 模型 ， 由 两 个 公式 组 成 : 一 个 等 式 建 模 了 状态 随 
着 时 间 的 演变 过 程 ， 并 且 含 有 来 源 于 这 个 变化 的 动态 噪声 ， 另 外 一 个 等 式 建 模 了 状态 观测 值 的 
噪声 版 本 。 假 设 状态 空间 模型 是 服从 马尔 可 夫 的 。 

KR 2 08 De ah Ae 

当 动 态 系 统 是 线性 的 ， 并 且 服 从 高 斯 分 布 ， 状 态 的 最 优 信 计 值 是 著名 的 卡尔 曼 滤 波 器 。 当 
动态 系统 是 非 线 性 的 ， 并 且 服 从 高 斯 分 布 ， 我 们 可 使 用 状态 空间 模型 下 的 一 阶 泰勒 展开 近似 得 
到 的 扩展 的 卡尔 曼 滤 波 器 。 假 如 是 轻 度 的 非 线 性 ， 这 个 对 于 非 线 性 滤波 的 近似 方法 得 到 可 以 接 
FBAR. 

DU nt S07 AE D ae 

Me Lik, MIRAR EmA BERERA FRSA RR A Ee 
特例 。 然 而 ， 在 实际 应 用 中 实现 贝 叶 斯 滤波 器 ， 必 须 采 用 近似 。 这 里 的 近似 可 以 是 以 下 两 种 方 
式 中 的 一 种 : | 

1. 后 验 分 布 的 直接 数值 近似 。 第 一 个 方法 背后 的 思想 总 结 如 下 : 
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通过 线性 卡尔 曼 滤 波 器 原理 用 数值 法 使 非 线 性 动态 系统 状态 的 估计 值 近 似 变 得 容 萄 。 


使 用 该 方法 进行 非 线 性 滤波 的 例子 包括 扩展 的 卡尔 曼 滤 波 器 ， 死 气味 的 卡尔 曼 滤 波 器 
(Julier 等 ，2000) ， 正 交 卡 尔 曼 滤波 器 (Ito and Xing, 2000; Arasaratnam 等 ，2007) 和 数值 
FAS} +E OR Be (Arasaranam and Haykin，2009) 。 在 这 些 非 线性 滤波 器 当中 ， 扩 展 的 卡尔 
曼 滤 波 器 是 最 简单 的 ， 数 值 积分 卡尔 曼 滤 波 器 是 最 强大 的 。 简 单 地 说 ， 是 用 计算 复杂 度 的 增加 
换取 可 靠 度 的 增加 。 

2. 后 验 分 布 的 间接 数值 近似 。 非 线性 滤波 的 第 二 个 方法 中 ， 最 突出 并 广泛 使 用 的 例子 是 
粒子 滤波 器 。 由 于 贝 叶 斯 滤波 器 的 后 验 分 布 很 难 接近 ， 我 们 凭借 随机 取样 的 方法 ， 从 必须 支持 
后 验 分 布 的 重要 性 ， 或 者 工具 的 分 布 里 抽取 样本 。 粒 子 滤波 器 的 递归 实现 通过 序 贯 重要 性 采样 
(SIS) 过 程 来 完成 的 。 为 了 避免 滤波 器 的 进入 权 值 退化 的 情况 ， 常 用 的 方法 是 采用 带 重 采样 的 
重要 性 采样 ， 依 靠 这 一 方法 相对 较 弱 的 正规 化 的 权 值 被 删除 ， 剩 余 的 正规 化 权 值 根据 它们 出 现 
的 可 能 性 被 复制 。 

一 方面 ， 尽 管 有 卡尔 曼 滤波 器 和 它 的 变 体 以 及 它 的 近似 扩展 ， 而 另 一 方面 ， 粒 子 滤波 项 在 
它们 的 分 析 推 论 和 实际 实现 上 是 根本 不 同 的 ， 虽 然 大 家 都 分 享 同 一 个 重要 的 性 质 : 预测 -修正 
性 质 。 
计算 上 的 考虑 

(i) 卡尔 曼 滤 波 器 。 无 论 何 时 ， 当 我 们 开发 一 个 滤波 器 的 算法 ,通常 要 检查 算法 的 收敛 
人 性。 特别 是 ， 算 法 的 使 用 者 想 知 道 能 使 算法 收敛 的 条 件 ， 以 及 如 何 确 定 收敛 问题 。 例 如 ， 众 所 
周知 卡尔 曼 滤 波 器 会 有 收敛 现象 ， 以 下 两 个 因素 是 产生 这 一 现象 的 原因 : 

。 状态 空间 模型 间 〈 卡 尔 曼 滤波 器 的 起 源 以 此 为 基础 ) 的 模型 错 配 ， 实 际 的 动态 环境 的 

底层 物理 学 负责 观测 值 的 产生 ; 

。 卡尔 曼 滤波 器 的 实际 实现 使 用 的 不 够 精确 的 算术 精度 。 

发 散 现象 的 根本 可 能 涉及 和 矩阵 P,, ,违反 了 协 方差 矩阵 的 正定 的 性 质 。 平 方 根 滤波 器 提供 了 
缓和 发 散 现 象 的 方法 。 

Gi) 粒子 滤波 器 。 接 下 来 开始 考虑 粒子 滤波 器 的 计算 部 分 。 给 定 粒 子 滤波 的 Monte Carlo 
根 ， 这 个 观察 结果 其 实 并 不 令 人 感到 奇怪 。 在 任何 情况 下 ， 我们 总 结 了 一 些 在 文献 中 的 重要 
结论 : 

1. 对 于 指定 的 粒子 的 数量 N， 式 (14. 84) 的 积分 的 Monte Carlo 估计 引发 的 误 老 是 
OCN-"”2) 级 的 ， 它 与 状态 向 量 的 维 数 无 关 (Ristic 等 ，2004) 。 这 个 结果 建立 在 两 个 假设 之 上 : 

。 在 式 (14. 84) 积 分 中 的 后 验 分 布 p(x, |Y,) 是 明确 已 知 的 。 

。 粒子 (如 样本 〉 是 统计 独立 的 。 

然而 ， 粒 子 滤波 中 的 这 两 个 假设 都 违反 了 : 精确 知道 p(x |Y,) 是 不 可 能 的 ， 并 且 在 粒子 
滤波 器 中 使 用 重 采样 ， 粒 子 轨迹 变 得 有 实际 依赖 性 。 

2. Crisan and Doucet (2002) 提出 的 ， 粒 子 滤波 器 产生 的 估计 的 方差 的 上 界 表示 为 : 
N 2 ) 乘 以 一 个 常量 比例 系数 c。 

不 幸 的 是 ， 这 个 结果 导致 了 错误 的 结论 ， 粒子 滤波 器 产生 的 估计 误差 与 状态 向 量 的 维 数 无 
关 ， 并 因此 免 于 维 数 灾难 。Daum and Huang (2003) 提出 ， 争论 鳞 数 因子 不 是 一 个 常量 ; 而 
是 随 着 时 间 名 按 指数 级 增长 ， 因 此 记 为 c,。 它 非常 依赖 状态 向 量 的 维 数 ， 这 意味 着 粒子 滤波 器 
确实 经 历 了 维 数 灾难 。 

3. 在 Bengtesson & (2008) 的 独立 性 研究 中 ， 证 明了 用 粒子 滤波 器 的 “brute-force-only” 
实现 来 描述 高 维 后 验 分 布 将 失败 ， 这 归 因 于 维 数 灾难 。 应 对 这 个 现象 的 推荐 的 方法 是 在 粒子 滤 
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波 之 前 先 得 到 一 些 维 数 降 低 的 形式 ; 正如 在 第 10 章 中 指出 的 ， 高 维 数据 经 常 是 稀少 的 ， 因 此 
可 以 降低 维 数 。 


注释 和 参考 文献 


1L 相关 的 动态 和 测量 噪声 。 在 一 个 线性 高 斯 状态 空间 模型 中 ， HERP o, 和 测量 品 声 w 中 的 相关 性 有 时候 
是 允许 的 。 这 个 条 件 被 用 在 经 济 学 中 。 特 别 地 ， 我 们 现在 有 
ry [Gn 4k = nyt 
Elev] = | 5 4 bX n Bt 
其 中 CG 是 已 知 的 矩阵 。 根 据 这 个 等 式 ， 这 两 个 噪声 过 程 wm, 和 wv ,是 同时 相关 的 ， 但 是 它们 在 非 零 延 迟 的 情 
况 下 保持 着 不 相关 性 。 在 这 种 情况 下 ， 卡 尔 曼 滤波 器 的 公式 化 必须 进行 修改 。 对 这 个 问题 的 第 一 次 讨论 是 
在 Jazwinski (1970); 也 可 以 参见 Harvey (1989), 

2. 信息 滤波 算法 。 协 方差 滤波 算法 是 实现 卡尔 曼 滤 波 器 的 一 种 方法 。 在 另 一 种 称 为 信息 滤波 器 算法 的 形式 中 ， 
卡尔 曼 滤波 器 通过 传播 协 方差 矩阵 P., ,的 道 来 实现 ; 这 个 道 与 Fisher 的 信息 矩阵 是 相关 的 ， 人 允许 滤波 带 在 
信息 理论 形式 的 解释 。 关 于 信息 滤波 算法 的 更 多 细节 ， 参 见 第 10 章 Haykin (2002) 。 

3. 记 法 。 为 了 式 (14.6) 的 彻底 正确 并 且 与 本 书 前 面 的 记 法 已 知 ， 我 们 应 该 用 ORFO), ARMOR 
X， 它 的 样本 值 用 x 表示。 我 们 已 经 在 式 (14. 6) 中 使 用 了 记号 p(x)， 并 且 在 本 章 中 其 他 相似 情况 有 以 下 两 
个 原因 : 

。 为 了 简化 表示 ， 因 为 本 章 有 大 量 的 随机 过 程 的 概率 表示 。 
。 最 重要 的 是 ， 避 免 在 本 章 后 面部 分 的 混乱 ， 在 后 面 记 号 和 用 于 表示 状态 的 序列 。 

4. 贝 叶 斯 估计 。 佑 计 理 论 中 的 一 个 经 典 的 问题 是 随机 参数 册 叶 斯 估计 。 对 这 个 问题 有 不 同 的 答案 ， 根 据 册 时 
斯 知 计 中 的 损失 函数 是 如 何 被 公式 化 的 。 一 个 特别 而 有 趣 的 贝 叶 斯 估计 器 类 型 是 所 谓 的 条 件 平 均 估 计 。 在 
这 种 情况 下 ， 我 们 做 两 件 事 : 

(1) 从 第 一 个 原理 获得 条 件 均值 估计 量 的 公式 。 

(2) 表明 这 个 估计 量 与 最 小 均 方 误差 估计 量 是 一 样 的 。 

对 于 这 些 结果 ， 考 虑 随机 参数 z。 给 定 了 一 个 依赖 于 z 的 观测 值 y， 需 要 做 的 是 估计 e FIRRA r 
的 一 个 估计 值 ， 符 号 fy) 强 调 了 估计 是 观测 值 y 的 一 个 函数 这 一 事实 。 令 尺 表 示 损 失 函 数 ， 依 赖 于 xx 和 人 它 
的 佑 计 值 。 然 后 ， 根 据 贝 吐 斯 估计 理论 ， 我 们 可 以 定义 贝 叶 斯 风险 为 : 


R= HCD] = f | Cz $6) pr, ydzdy (AD 
这 里 plc, PÆ rA y 的 联合 概率 密度 函数 。 对 于 一 个 具体 的 损失 函数 C(xz，z(y))， 贝 叶 斯 估计 全 (y) 被 
定义 为 最 小 化 危险 R GIT 


一 个 有 特别 引起 大 家 兴趣 的 损失 函数 〈 这 是 很 大 程度 上 这 本 书 涵 盖 内 容 的 精神 所 在 ) 是 均 方 误差 ， 具 
体 化 为 估计 误差 的 平方 ， 它 本 身 定义 为 实际 参数 值 r ATTA YALL, BA 


e=2—7(y) 
相应 地 ， 我 们 写成 
CClxrri(y)) = Clr —Z£y)) 
或 者 ， 更 简单 地 
Cle) = e 

因此 我 们 把 公式 (A) 重 新 改写 成 

Ras = | (a — XC y))? plz,ydady (B) 
其 中 风险 R。 的 下 标 指出 使 用 均 方 误差 作为 它 的 基础 。 从 概率 理论 ， 我 们 得 到 

plrry) = plr|y ply) (C) 


其 中 p(x|y) 是 给 定 的 z 和 y 的 条 件 概率 密度 函数 ，p(y) 是 y CHARM) 概率 密度 函数 。 因 此 ,将 公式 
(C) 代 和 人 到 公式 (B) 里 ， 我 们 得 到 
Ra =| [| Ci) pa lyda |p Cody (D) 
现在 我 们 意识 到 里 面 的 积分 〈 在 方 括号 里 和 公式 (D) 的 p(y) 都 是 非 负 的 。 因 此 我 们 可 能 简单 的 通过 最 小 
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化 里 面 的 积分 从 而 最 小 化 风险 R。,。 令 这 样 获得 的 估计 值 用 z,,(y) 表 示 。 我 们 发 现 通 过 里 面 的 积分 对 Z(y) 
Re, RACHRSETS. 
为 了 简化 表述 方法 ， 令 表示 公式 (D) 的 里 面 的 积分 。 然 后 1 对 zz(y) 求 导 得 到 


H = ?| zpalpde+2 2o] plax |y)dz (E) 


公式 (E) 的 等 号 右边 的 第 二 个 积分 ， 表 示 在 概率 密度 函数 下 的 全 部 面积 ， 因 此 值 为 单位 一 。 因 此 ， 设 定 d1/ 
d 等 于 零 ， 我 们 得 到 





Xm CY) = | xp(x|y)dz (CF) 


公式 (FE) 定 义 的 解 是 唯一 的 最 小 值 。 
公式 (F) 中 定义 的 估计 量 2s Cy) 是 自然 的 最 小 均 方 误差 估计 量 。 对 这 个 估计 量 的 另 一 种 解释 ， 我 们 认识 
到 给 定 观测 值 y， 等 式 右 边 的 积分 仅仅 是 参数 z 的 条 件 平均 。 
因此 得 到 结论 最 小 均 方 误 差 估 计量 和 条 件 平均 估计 量 确实 是 同一 个 。 换 名 话说， 我 们 有 
Ems Cy) = Elz | y] (G) 
用 公式 (G) 替 换 2(y) 带 人 到 公式 (D)， 我 们 发 现 里 面 的 积分 刚好 是 给 定 y 的 条 件 下 ， 参 数 xz 的 条 件 方差 。 相 
应 地 ， 风 险 Rs 的 最 小 值 是 对 所 有 的 观测 值 y 这 个 条 件 方 差 的 平均 值 。 
5. 基于 电位 序列 的 贝 叶 斯 滤波 器 。 在 14. 10 节 中 讨论 过 大 脑 功能 的 动态 建 模 ， 我 们 采样 一 个 传统 的 信号 处 理 
框架 ， 并 重视 对 卡尔 曼 滤波 理论 的 作用 。 
事实 上 ， 皮 层 神经 网 络 从 感官 传人 收 到 电位 序列 观察 一 个 不 确定 的 动态 环境 ， 而 不 是 直接 从 环境 观察 。 
电位 序列 提供 了 在 大 脑 中 神经 的 主要 交流 通道 ;它们 用 峰 电 位 到 达 的 时 间 的 形式 来 表示 (Koch, 1999, 
Rieke 等 ，1997) Bobrowski 等 (2007) 考虑 了 动力 环境 隐藏 状态 概率 分 布 的 最 佳 估 计 问 题 ， 以 电位 序列 
的 形式 给 出 噪声 观测 值 。 最 重要 的 是 ， 它 们 描述 了 一 个 线性 周期 性 的 神经 网 络 模型 ， 这 个 模型 可 以 切实 的 
实现 实时 的 贝 叶 斯 滤波 。 这 个 输入 可 能 是 多 模 态 的 ， 由 两 个 不 同 子 集 组 成 : 例如 ， 一 个 是 视觉 的 ， 另 一 个 
听觉 的。 并 且 ， 提 出 了 综合 实例 来 证 明 系 统 的 操作 。 
值得 注目 的 是 在 连续 时 间 内 的 非 线性 滤波 ， 在 点 过 程 观测 的 基础 上 ， 第 一 次 被 Snyder (1972) HM: 
也 可 以 参见 Synder 的 1975 年 出 版 的 书 中 关于 随机 点 过 程 的 讨论 。 


习题 


FA BE We ae 
14.1 预测 状态 误差 向 量 被 定义 为 


Enp © Xa — Xni 
这 里 各 1,_! 是 状态 x, 的 最 小 均 方 估计 ， 给 定 观测 数据 序列 m ,fa ,yi 。 令 On 和 v 分 别 表示 动态 噪声 
和 测量 噪声 向 量 。 表 示 ei Go, Aly, IES, TUBA 
ELe. 1 On ] = 0 
和 
EL Enn- vi] = 0 
14.2 ”考虑 一 个 均值 为 零 的 标量 观测 值 y, 的 集合 ， 变 换 成 相应 的 均值 为 零 、 方 差 为 ol 的 新 息 过 程 a 
的 集合 。 给 定数 据 集合 ， 令 状态 向 量 x 的 估计 值 表示 为 如 下 形式 


Xijn = Sta 
其 中 brs k51, 25 oes ”是 待 确定 向 量 的 集合 。 需要 选择 be 使 得 估计 状态 误差 向 量 的 范 数 的 
开平 方 的 期 望 值 最 小 


这 表明 ， 最 小 化 得 到 结果 
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14.3 


14,4 


14.5 


14.6 


14.7 
14.8 


14.9 


其 中 


Qk 


Pe Oark 
是 正规 化 后 的 新 昌 。 这 个 结果 可 以 看 做 是 式 (14. 24) 和 式 (14. 26) 的 一 个 特例 。 
证 明 式 (14. 25)， 这 个 式 子 说 明了 新 息 过 程 w 和 状态 估计 误差 8;| ,是 不 相关 的 ， 对 于 有 二 1 ,2,…,n 并 且 
Xn, 
在 卡尔 曼 滤 波 理论 中 证 明 ， 滤 波 的 状态 估计 误差 向 量 ge ,是 均值 为 零 ， 服 从 高 斯 分 布 的 ， 并 且 是 一 阶 马 
尔 可 夫 过 程 。 
卡尔 曼 增益 G,， 由 式 (14. 31) 定 义 ， BAMA R o BRR, 是 在 式 (14.22) 中 自 定 义 的 。 这 个 矩阵 
R, 是 正定 的 ， 但 是 并 不 需要 是 非 奇 异 的 。 
(a) 为 什么 R, 是 正定 的 ? 
Cb) A T PRUE REM R 存在 ， 你 选择 什么 样 的 先 验 分 布 作用 于 和 矩阵 Q,., 上 ? 
在 许多 情况 下 ， 随 着 循环 次 数 n 趋 于 无 穷 大 ， 预 测 误 差 协 方差 矩阵 Pi ;收敛 到 稳定 的 状态 值 P。 证 明 
极限 值 P 满足 代数 Riccati 等 式 
PB’ (BPB- + Q.) (BP—Q,)=0 
其 中 假设 状态 转移 抑 阵 等 于 单位 阵 矩 阵 的 B、Q. Q 分 别 是 Bn Quno Qn ARRE. 
可 以 这 样 说 ， 原 始 动态 系统 的 状态 空间 模型 符 人 了 卡尔 曼 滤波 器 的 结构 。 证 明 这 一 叙述 。 
在 卡尔 曼 滤 波 器 中 预测 修正 框架 的 检查 揭示 了 以 下 两 个 性 质 : 
(a) 预测 状态 的 部 ;1), 和 预测 误差 协 方差 矩阵 P. ;的 计算 仅仅 依赖 于 从 系统 (状态 ) 模型 众 握 取 的 
信息 。 
Cb) 滤波 状态 癌 1, 和 滤波 误差 协 方差 给 阵 P, ,的 计算 仅仅 依赖 于 从 测量 模型 众 提取 的 信息 。 
证 明 卡 尔 曼 滤波 器 的 这 两 个 性 质 。 
预测 误差 协 方差 矩阵 P11 和 滤波 误差 协 方差 矩阵 P, 1, 不 可 以 假设 为 同一 个 值 。 这 是 为 什么 ? 


14.10 在 14.3 节 中 卡尔 曼 滤 波 器 的 引出 是 建立 在 最 小 均 方差 估计 的 概念 上 的 。 在 这 个 问题 中 ， 我 们 研究 了 


14. 11 


另外 一 个 卡尔 曼 滤 波 器 的 推导 ， 以 最 大 化 后 验 概率 CMAP) 标准 为 基础 。 对 于 这 个 推导 ， 假 设 动 态 品 
E wm, 和 测量 噪声 v, 都 是 均值 为 零 的 高 斯 过 程 ， 协 方差 矩阵 分 别 是 Q.。 和 Qno S p(x|Y,) 表 示 % 的 
条 件 概率 分 布 ， 给 定 Y, 表示 观测 值 yi ,ye ot Yn 的 集合 。 的 MAP 估计 表示 为 和 ap,,， 定义 为 的 
特殊 值 ， 使 得 p(x, | Y,) 最 大 化 ， 或 者 等 价 为 p(x | YY;) 的 对 数 。 这 个 评价 要 求 我 们 求解 以 下 的 条 件 








dlogp(x, | Y,) a (A) 
OXn xa — XMAP 
表明 
d logp (x, ly.) <0 (B) 
| 9 Xa % = ËMAP, n 
(a) 我 们 可 以 将 分 布 p(x, | Y, ) 表 示 为 
pm, YY,) 
px | Yn) = 力 (Y，) 
鉴于 联合 分 布 的 定义 ， 也 可 以 表示 为 如 下 的 形式 
z px ¥n sY) 
po [Ya PY, Ym) 
因此 ， 表 明 
pa |¥,) = 20 | Ke) pO | Ye) 


DCy, » ¥n-1) 

(b) 使 用 动态 噪声 oo, 和 测量 噪声 vw 的 高 斯 特征 ， 推 导 表 达 式 ply, |x DA pl%, | Y,-1)。 接 着 认识 到 
pC% |Y ) 可 以 作为 一 个 常数 ， 由 于 它 不 依赖 于 状态 n K ax | Y,) 公 式 化 。 

(c) EFA CAD (DRAMA. HERS CERO 中 讨论 过 )， 推 导出 Rap,; 的 公式 ， 
证 明 它 和 在 14. 3 节 的 卡尔 曼 滤 波 表 的 推导 完全 一 致 。 

(O 最 后 ， 证 明 (¢e) 部 分 得 到 的 MAP 的 估计 3yap,， 确实 满足 公式 (B)。 

考虑 一 个 无 噪声 状态 空间 模型 描述 的 线性 动态 系统 


Xi = Ax, 


ww ai bbt.com 000000 





第 14 章 动态 系统 状态 估计 的 贝 叶 斯 读 波 499 


和 

y, = Bx, 
Hex, 表示 状态 ， 是 观测 值 ，A 是 转移 矩阵 ， 了 是 测量 和 矩阵。 
Ca) 证明 


nn = ACI—G,B) am + BG,y, on = Yn — B Xl 1 
其 中 G, EERE, « 表示 新 息 过 程 。G, 是 如 何 定 义 的 ? 
(b) 使 用 (a) 部 分 的 结果 ， 证 明 卡 尔 曙 滤波 殴 是 一 个 白化 滤波 器 ， 因 为 它 产 生 了 一 个 对 y, 的 “ 白 的 ” 
估计 误差 。 
14.12 #14.2 总 结 了 以 状态 的 滤波 估计 为 基础 的 卡尔 曼 滤 波 器 。 产 生 了 另外 一 个 卡尔 曼 滤 波 器 的 总 结 ， 这 
一 次 使 用 了 状态 的 预测 估计 作为 基础 ， 描 述 了 卡尔 曼 滤 波 器 的 相关 的 信号 流 图 。 


平方 根 卡尔 曼 滤 波 器 
14.13 从 恒等式 (14. 47) 到 式 (14., 49)， 以 及 式 (14. 46) 等 号 两 边 相 应 的 相等 的 项 。 事 实 上 ， 和 需要 考虑 四 个 桓 
等 式 。 找 出 这 些 恒 等 式 并 且 证 明 它 是 其 中 一 个 已 知人 恒等式 的 移 项 。 


扩展 的 卡尔 曼 滤波 顺 
14.14 从 式 (14. 64) 的 修正 系统 (状态 ) 模型 开始 ， 证 明 &， 它 是 一 个 已 知 的 (如 非 随 机 的 ) 向 量 ， 由 
式 (14. 75) 定 义 。 
14.15 SP, ,表示 状态 误差 向 量 % 一 名 1s-_1 和 测量 误差 向 量 y, 一 徊 1 一! 的 交叉 协 方差 矩阵 。 令 Py. 表示 测量 
误差 向 量 y, 一生 |,-1 的 协 方差 和 矩阵 。 证 有 明 修 正 的 卡尔 坚 收 益 
Grin = ÅH, G, 
可 以 用 这 两 个 协 方差 矩阵 的 形式 表示 为 
Gyn = Pontes 


贝 叶 斯 滤 旋 器 


14.16 (a) 证 上 明 式 (14. 77) 
(b) 证 明 式 (14. 83). 


Fil FUE WE ae 
14.17 扩展 的 卡尔 曼 滤波 器 和 粒子 滤波 器 ， 在 以 下 的 意义 上 代表 了 非 线性 滤波 器 两 个 不 同 的 例子 : 
。 扩展 的 卡尔 曼 滤波 器 的 推导 是 基于 统计 分 布 约束 条 件 下 的 一 个 局 部 方法 。 
。 在 另 一 方面 ， 粒 子 滤波 器 的 推导 是 基于 没有 统计 约束 的 一 个 全 局 方法 。 
闸 述 这 两 个 叙述 。 
14.18 图 14.5 解释 说 明了 当 样 本 的 数量 和 重 采样 都 等 于 6 时 的 重 采 样 过 程 ; 也 就 是 说 ， 在 重 采样 之 后 的 粒 
子 数量 与 取样 之 前 的 粒 数量 相同 。 解 释 这 张 图 是 如 何 得 到 的 。 
14.19 ”考虑 一 个 非 线性 动态 系统 ， 它 的 状态 空间 模型 定义 如 下 
Xi1 一 an (X,) + On 
和 
Ya 一 b,(x,) + Vn 
Eh, JARE o 和 测量 噪声 w 都 是 均值 为 零 ， 白 噪声 高 斯 过 程 、 协 方差 矩阵 分 别 为 Q. .和 Qno 
决定 以 下 的 分 布 : 
(a) 先 验 预 测 分 布 p(x | Yad) 
Cb) 似 然 分 布 ply, | x )。 
Cc) 后 验 分 布 p(x | Y,) ， 其 中 Y, 表示 观测 值 的 序列 yn ,yz oe one 
14.20 ”继续 14. 9 题 ， 证 明 最 优 重要 性 密度 分 布 p(x, | %-1,y,) 是 高 斯 分 布 。 
计算 机 实验 
14.21 在 这 个 问题 中 ， 我 们 利用 了 粒子 滤波 器 求解 计算 机 视觉 中 的 非 线 性 跟踪 问题 。 一 个 物体 由 5X5 个 像 
索 组 成 ， 按 以 下 两 个 等 式 定 义 的 轨迹 移动 : 


x, = 200 





3. 5x7 
N 


+ 50 vy, = 100sin(¢ ) + 150 








sin( Zn) 
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其 中 r, My, EP n 步 的 图 像 坐 标 ，N 是 帧 的 总 数 。300X 300 像素 的 场景 通过 图 P14. 21 可 视 化 。 这 
个 白色 的 背景 区 域 被 4 个 等 距 的 高 度 为 h=10 和 像素 的 黑色 条 分 割 ， 它 显示 区 域 的 前 景 。 物 体能 够 通过 
它 本 身 的 红色 被 分 辨 出 来 。 





i 


图 P14.21 14.21 题 的 场 量 和 轨迹 


(a) 用 浅 灰 色 表 示 的 模拟 轨迹 ， 作 为 一 个 图 像 序列 使 用 了 NN 一 150 帧 。 当 物体 移动 到 背景 区 域 时 确保 
物体 被 显示 出 来 ， 如 果 物 体 被 前 景 遮挡 ， 确 保 它 被 隐藏 。 

(b) 将 模拟 数据 作为 输入 ， 实 现 让 粒子 滤波 器 去 跟踪 这 个 物体 。 在 物体 可 见 的 区 域 ， 你 可 以 用 颜色 信 
息 来 获得 一 个 位 置 的 测量 值 ， 但 是 在 物体 被 遮挡 的 区 域 ， 你 就 必须 依靠 滤波 估计 了 。 当 设置 状态 
空间 模型 的 时 候 ， 你 需要 做 什么 样 的 假设 呢 ? 在 场景 中 可 视 化 真实 的 和 估计 的 轨迹 。 

Co) 现在 在 不 同 的 实验 中 ,逐渐 增加 前 景区 域 的 高 度 A。 解 释 为 了 保持 物体 的 轨迹 贯穿 整个 图 像 序列 
所 需要 的 权衡 。 帧 速率 和 粒子 数量 对 实验 有 怎样 的 影响 ? 

(d) 在 跟踪 过 程 中 收集 的 信息 可 以 被 用 来 估计 场景 的 前 景 和 背景 部 分 ， 也 就 是 说 ， 获 取 物 体 与 它 所 交 
互 部 分 的 深度 。 讨 论 解 决 这 个 问题 的 可 能 的 方法 。 
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动态 驱动 递归 网 络 
本 章 组 织 
本 童 学 习 动态 递归 网 络 作为 输入 输出 映射 器 的 多 个 方面 。 
本 章 的 主要 内 容 组 织 如 下 


通过 和 第 13 和 第 14 章 的 链接 ，15.1 节 的 引言 给 出 了 动态 驱动 递归 网 络 学 习 的 动机 。 

15.2 节 讨 论 了 不 同 的 递归 网 络 结构 。 

15.3 节 和 15.4 节 讨论 递归 圆 络 的 理论 方面 的 内 容 ， 强 调 了 通用 逼近 定理 以 及 可 控 性 和 可 
观测 性 。 

15.5 节 讨 论说 归 网 络 的 计算 能 力 。 

15.6 节 到 15.8 节 介绍 学 习 算 法 ，15.6 节 是 学 习 算 法 的 概述 ， 然 后 介绍 两 个 基于 梯度 的 算 
法 : 在 15.7 节 中 讨论 通过 时 间 的 反 向 传播 算法 ，15.8 节 中 讨论 实时 递归 学 习 算 法 。 

15.9 节 讨 论 消失 梯度 问题 ， 它 限制 了 基于 梯度 递归 学 习 算 法 的 实际 应 用 能 力 ; 这 里 也 讨 
论 了 如 何 使 用 二 阶 方法 来 缓和 这 一 问题 。 

15.10 节 描 述 通 过 使 用 序列 状态 估计 器 ， 解 决 递归 神经 网 络 的 有 监督 训练 〈 即 估计 其 突 触 
权 值 )。 在 15.11 节 中 给 出 一 个 计算 机 实验 。 

15. 12 节 讨 论 自 适 应 行为 的 受 限 制 形式 ， 这 种 形式 仅仅 在 完成 有 监督 训练 并 固定 权 值 后 在 
谦 归 神经 网 络 中 被 观测 到 。 为 增强 这 一 自 适应 行为 ， 通 过 包含 自 适 应 评估 ， 使 得 网 络 的 结构 得 
到 相应 的 扩展 。 

15.13 节 强 调 了 一 个 使 用 模型 参考 的 神经 控制 器 的 实例 学 习 。 


15.1 引言 


我 们 用 下 面 这 句 话 来 开始 本 书 的 最 后 一 章 : 

全 局 反馈 是 计算 智能 的 促进 者 。 

在 第 13 章 中 通过 学 习作 为 联想 记忆 的 递归 网 络 已 经 很 好 地 说 明了 这 名 话 。 在 那里 ， 我 们 
论证 了 在 递归 网 络 中 使 用 全 局 反馈 如 何 完成 以 下 一 些 有 用 任务 : 

。 内 容 可 寻 址 的 存储 ， 以 Hopfield 网 络 为 例 。 

。 ARH. VA Anderson 的 盒 中 脑 状 态 模型 为 例 。 

。 混沌 过 程 的 动态 重 构 ， 使 用 围绕 着 正则 一 步 预 测 器 来 建立 的 反馈 。 

在 本 章 中 ， 我 们 学 习 递 妇 网 络 的 另 一 个 重要 的 应 用 : HBA WHR. EMI BRM 
从 第 14 章 的 逐次 状态 估计 中 获 益 。 人 例如， 考虑 将 具有 单 隐藏 层 的 多 层 感知 硕 作 为 递归 网 络 的 
基本 构建 块 。 围 绕 多 层 感知 器 的 全 局 反馈 应 用 ， 可 以 有 多 种 不 同 的 形式 。 可 以 从 多 层 感知 器 隐 
藏 层 的 输出 反馈 到 输 人 层 。 另 外 ， 也 可 以 从 输出 层 反馈 到 隐藏 层 的 输入 。 我 们 甚至 可 以 更 进 一 
步 ， 在 单一 递归 网 络 结构 中 ， 将 所 有 这 些 可 能 的 反馈 结合 起 来 。 当 然 我 们 也 可 以 考虑 其 他 的 神 
经 网 络 结构 作为 构造 递归 神经 网 络 的 基本 构建 块 。 重 要 的 是 递归 网 络 具有 非常 丰富 的 结构 布 
局 ， 这 使 得 他 们 在 计算 上 具有 更 强大 的 能 力 。 

根据 定义 ， 一 个 映射 网 络 的 输入 空间 被 映射 到 一 个 输出 空间 。 对 于 这 方面 的 应 用 ， 递 归 网 络 依 
时 序 响应 外 部 应 用 的 输入 信号 。 因 此 ， 我 们 可 以 称 这 一 章 里 的 递归 网 络 为 动态 驱动 递归 网 络 一 一 本 
章 的 标题 由 此 而 来 。 而 且 ， 反 馈 的 应 用 ， 使 递归 网 络 能 够 得 到 状态 表示 ， 这 使 得 它 成 为 适应 于 不 同 
应 用 的 工具 ， 例 如 非 线 性 预测 和 建 模 ， 通 信 信 道 的 自 适 应 平衡 ， 语 音 处 理 ， 设 备 控制 等 。 
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15.2 递归 网 络 体 系 结构 


如 前 面 引言 所 述 ， 弟 归 网 络 的 结构 布局 有 许多 不 同形 式 。 本 节 讨 论 4 种 特殊 结构 ， 每 一 种 
着 重 于 全 局 反馈 的 一 种 特殊 形式 '。 它 们 有 如 下 共同 的 特点 : 
。 它们 都 结合 一 个 静态 多 层 感 知 器 或 其 中 某 些 
部 分 。 
。 它们 都 利用 多 层 感 知 需 的 非 线 性 映射 能 力 。 
输入 -输出 递归 模型 
图 15. 1 显示 由 一 个 多 层 感知 器 的 自然 推广 而 得 到 的 
通用 递归 网 络 模 型 。 模 型 有 一 个 输入 被 应 用 到 有 9 个 单 
元 的 抽 头 延迟 线 记 忆 。 模 型 的 单个 输出 通过 另外 g 个 单 
元 抽 头 延迟 线 记忆 反馈 到 输入 。 两 个 抽 头 延迟 线 记忆 的 
内 容 被 用 于 反馈 到 多 层 感 知 器 的 输入 。 模 型 输入 的 当前 
(AFA u, 代表 ， 相 对 应 的 输出 用 yai 表示; 也 就 是 输出 领 
先 输 入 一 个 时 间 单 位 。 因 此 应 用 到 多 层 感知 器 输入 层 的 
信号 向 量 的 数据 窗口 由 如 下 分 量 组 成 。 
。 现在 和 过 去 的 输入 值 ， 即 w, ,wi1,"…，w-o+1， 表 
示 来 自 网 络 外 部 的 输入 。 
© 输出 的 延迟 值 ， 即 yns Ymist o ys-o+1， 在 此 基础 
上 模型 输出 y+. BET BS 
图 15. 1 的 递归 网 络 称 为 有 外 部 输入 的 非 线 性 自 回归 
模型 (nonlinear autoregressive with exogenous inputs 


model, NARX)?, NARX 的 动态 行为 由 
yar = Fyne tt Meg tne ete) (15. 1) 图 15.1 有 外 部 输入 的 非 线性 自 





描述 ， 其 中 下 是 它 的 自 变量 的 一 个 非 线 性 函数 。 注 意 ， 回归 (NARX) 模型 
在 图 15. 1 中 已 经 假设 两 个 延迟 线 记 忆 有 同样 大 小 的 g 它们 一 般 是 不 同 的 。 
状态 空间 模型 


图 15. 2 表示 另 一 种 通用 的 递归 网 络 的 框图 ， 称 为 状态 空间 模型 。 隐 藏 神经 元 定义 网 络 的 
状态 。 隐 藏 层 的 输出 通过 一 个 单位 时 间 模 块 反馈 回 输 入 。 输 入 层 为 反馈 节点 和 源 节 点 的 联合 。 
网 络 是 通过 源 节点 和 外 部 连接 的 。 用 于 将 隐藏 层 输 出 反馈 回 输 入 层 的 延迟 单元 的 数目 决定 了 模 
型 的 阶 数 。mX1 维 的 向 量 w 代表 输入 向 量 ，g X1 向 量 zx, 代表 隐藏 层 在 2” 时 刻 的 输出 癌 量 。 
我 们 可 以 用 下 列 两 个 联 立 方程 组 描述 在 图 15. 2 中 的 模型 的 动态 行为 : 

X, = a(x, U, ) (15. 2) 
y, = Bx, (15.3) | 


e T 4 个 单位 Gama 











| p 个 单位 时 间 


局 
ba 
i r 
a 


HARRI 


Xe 






PNY Trae Te 
图 15.2 ”状态 空间 模型 
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Bac.) 是 一 个 刻画 隐藏 层 特征 的 非 线 性 函数 ，B 是 代表 输出 层 特征 的 突 触 权 值 矩阵 。 隐 
藏 层 是 非 线性 的 ， 但 输出 层 是 线性 的 。 

图 15. 2 的 递归 网 络 包括 几 个 特殊 的 递归 结构 作为 其 特例 。 例 如 ，Elman(1990，1996) f 
述 过 的 在 图 15. 3 所 示 的 简单 递归 网 络 (simple recurrent network, SRN). Elman 网 络 结构 和 
图 15. 2 所 示 结 构 有 相似 之 处 ， 除 了 输出 层 可 以 是 非 线 性 的 和 省 略 了 输出 的 单位 时 间 延 迟 模 块 
之 外 。 在 文献 中 它 通常 被 称 为 简单 递归 网 络 ， 其 意义 是 由 递归 网 络 计 算 的 误差 导数 是 回 到 过 去 
的 一 个 时 间 步 的 “简单 ”延迟 ; 然而 ， 这 个 简单 性 不 阻止 网 络 从 很 远 的 过 去 存储 信息 。 

背景 单元 


到 延迟 模块 K 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 尾 






= 输出 向 量 
输入 向 量 


一 一 一 一 一 一 一 一 一 一 一 一 一 必 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


单个 隆 藏 层 的 多 层 感 知 器 


图 15.3 简单 递归 网 络 (SRN) 

Elman 网 络 包 含 从 隐藏 层 神经 元 到 由 单位 时 间 延 迟 组 成 的 背景 单元 (context unit) AI 
归 连 接 。 这 些 背景 单元 存储 隐藏 神 经 元 对 应 一 个 时 间 步 的 输出 ， 接 着 反馈 回 输 入 层 。 因 此 隐藏 神经 
元 具有 它们 以 前 激活 的 记录 ， 这 使 得 网 络 可 以 进行 通过 时 间 扩 展 的 学 习 任 务 。 隐 藏 神经 元 也 反馈 给 
输出 神经 元 ， 输 出 神经 元 给 出 在 外 部 激励 作用 下 网 络 的 响应 。 由 于 隐藏 神经 元 反馈 的 特性 ， 这 些 神 
经 元 在 多 时 间 步 内 通过 网 络 继续 递归 信息 ， 从 而 发 现时 间 的 抽象 表示 ， 这 就 是 反馈 的 能 力 。 
递归 多 层 感知 才 

第 三 种 递归 结构 是 一 种 递归 多 层 感知 器 (recurrent multilayer perceptron, RMLP)(Pus- 
korius 等 ，1996) 。 它 有 一 个 或 多 个 隐藏 层 ， 基 于 同样 的 原因 ， 静 态 多 时 感知 器 比 使 用 单个 隐 
藏 层 的 感知 器 更 有 效 和 节约 。RMLP 的 每 一 个 计算 层 对 它 的 邻近 层 有 一 个 反馈 ， 如 图 15.4 所 
示 ， 此 时 RMLP 有 两 个 隐藏 层 ; 。 






单位 时 间 延 迟 模块 
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多 个 隐藏 层 的 多 层 感 知 器 
图 15,4 PIS ARRAS 
向 量 ,代表 第 一 个 隐藏 层 的 输出 ， 所 ,代表 第 二 个 隐藏 层 的 输出 ， 以 此 类 推 。 向 量 x,。 代 表 
输出 层 的 输出 。 那 么 ，RMLP 通常 对 输入 向 量 ww 的 响应 的 动态 行为 可 用 如 下 联 立 方程 组 抄 述 ， 
Xr 一 P, Xr,» > U,, ) 


Xin = Pa (Xn, Xini) (15. 4) 


Xo,ntl 一 中 ， (Xon XK tt 
其 中 中 © ye ), 中 ,中 56，) 分 别 表示 代表 RMLP 第 一 个 隐藏 技 、 第 二 个 隐藏 层 …… 
及 输出 层 的 激活 函数 ; K 表示 网 络 中 隐藏 层 的 数目 。 在 图 15.4 中 ，K 一 2。 
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这 里 描述 的 RMLP 包括 图 15. 3 的 Elman 网 络 和 图 15. 2 的 状态 空间 模型 ， 因 为 RMLP 的 
输出 层 或 任何 隐藏 层 没 有 限定 其 激活 函数 的 具体 形式 。 
二 阶 网 络 
在 描述 图 15. 2 的 状态 空间 模型 中 ， 我 们 用 “ 阶 ” 来 表示 隐藏 神经 元 的 数目 ， 其 输出 通过 
单位 时 间 延 迟 模块 反馈 回 输 入 层 。 
但 是 在 另外 的 背景 中 ， 术 语 “ 阶 ”有 时 用 来 表示 如 何 定义 神经 元 的 诱导 局 部 域 的 方法 。 例 
如 ， 一 个 多 层 感 知 器 神经 元 & 的 诱导 局 部 域 ww 定义 为 
u = Wat Z; 十 >) Wout: (15.5) 
其 中 r; 源 于 隐藏 层 神经 元 7 的 反馈 信号 ，u; 是 输入 层 应 用 于 节点 i 的 源 信 号 ; w 表示 网 络 中 
对 应 的 突 触 权 值 。 将 式 (15. 5) 所 描述 的 神经 元 称 为 一 阶 神经 元 。 但 是 ， 有 时 诱导 局 部 域 v 由 
REAR, BARA 
U, = > Swazi (15. 6) 


PEATE EAT CMB. CER AT MMA w BAMA i ji 
接 起 来 。 
二 阶 神经 元 组 成 基本 的 二 阶 递归 网 络 (Giles 等 ，1990) ， 它 的 一 个 例子 如 图 15.5 所 示 。 
网 络 接受 按时 间 顺 序 的 输入 序列 ， 并 且 按 如 下 两 个 式 子 定义 的 动力 学 演化 : 
Ui,n 一 b, 十 D > Wg intl jar (15. 7) 


加 1 
Lini ~ OCU n) = ie 十 exp(— Cnn) (15. 8) 


其 中 w,, 为 隐藏 神经 元 & 的 诱导 局 部 域 ，b 为 相关 联 的 偏 置 ，zi.; 为 神经 元 & 的 状态 〈 输 出 )， 
wr 是 应 用 于 源 世 点 J 了 的 输入 ， wy: 为 二 阶 神经 元 & 的 权 值 。 


图 15. 5 所 示 的 二 阶 递归 网 络 的 一 个 特点 是 乘积 zj,nuj, 代 表 一 对 状态， 输入 }， 一 个 正 的 
单位 延迟 





图 15.5 二 阶 递归 网 络 ; 为 简单 起 见 省 略 神 经 元 的 偶 置 连接 。 网 络 包 含 
2 个 输入 和 3 个 状态 神经 元 ， 因 此 需要 3X2=—6 个 乘法 器 
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BUA wy tema GRAS. 输入 } 到 (下 一 个 状态 } 的 状态 转移 的 出 现 ， 而 权 值 为 负 表 示 没 有 转 
移出 现 。 状 态 转移 描述 如 下 : 

GCziy zi) = Lr (15.9) 
根据 这 种 关系 ， 二 阶 网 络 可 以 用 来 表示 和 学 习 确 定性 有 限 状态 自动 机 * (deterministic finite 
state automated, DFA), DFA 是 一 个 有 确定 状态 数目 的 信息 处 理 装 置 。 在 15. 5 节 将 介绍 更 多 
关于 神经 网 络 和 自动 机 关系 的 细节 。 


15.3 通用 逼近 定理 

在 动态 系统 的 数学 描述 上 ， 状 态 的 概念 起 着 重要 的 作用 ， 正 如 在 第 14 章 中 解释 的 细节 那 
样 。 动 态 系 统 的 状态 形式 地 定义 为 一 些 数量 的 集合 ， 它 概括 为 了 唯一 地 描述 系统 将 来 行为 所 必 
需 的 系统 过 去 行为 的 全 部 信息 ， 除 了 用 于 输入 激励 ) 产生 的 外 部 效果 之 外 。gqX1 向 量 zx, K 


示 非 线性 离散 时 间 系 统 的 状态 。mX1 Ru 表示 用 于 系统 的 输入 ，pX1 向 量 y, 表示 相应 的 
输出 。 假 设 无 噪声 ， 考 虑 递归 网 络 的 动态 行为 用 非 线 性 方程 组 


X1 = (W, x, + W,u,) (15. 10) 
y = W. Xn (15.11) 
描述 ， 其 中 W, 是 g Xa RH. W, oa Xm BE, W E pX ER; 6: R~ R LEMAR 
射 ， 由 
Tı olx) 
( 
re e (15. 12) 
iy olz) 


描述 ， 表 示 某 种 无 记忆 的 分 量 方式 的 非 线 性 g: R 一 RR。 空 间 R”"，R” 和 RR* 分 别称 为 输入 空 
闻 、 状 态 空间 和 输出 空间 。 状 态 空 间 的 维 数 〈 即 9) 是 系统 的 阶 。 因 此 图 15. 2 的 状态 空间 模型 
EmA., p WEH g 阶 递归 模型 。 式 (15. 10) 是 模型 的 系统 〈 状 态 ) 方程 ， 式 (15. 11) 是 度量 
方程 。 系 统 方 程 (15. 10) 是 式 (15. 2) 的 特殊 形式 。 

建立 在 使 用 静态 多 层 感知 器 和 两 个 延迟 线 记 忆 基 础 上 的 图 15. 2 的 递归 网 络 提供 一 种 实现 

式 (15. 10) 和 式 (15. 12) 非 线性 反馈 系统 的 方法 。 注 意图 15. 2， 在 多 层 感 知 器 的 神经 元 中 ， 只 
有 那些 通过 延迟 将 其 输出 反馈 到 输入 层 的 神经 元 与 确定 递归 网 络 的 状态 有 关 。 因 此 这 就 把 输出 
层 的 神经 元 排除 在 状态 的 定义 之 外 。 

对 于 矩阵 W, W, A W., 的 解释 ， 以 及 对 非 线性 函数 p(*)， 陈 述 如 下 : 

。 矩阵 W, 代表 隐藏 层 的 9g 个 神经 元 连接 到 输入 层 的 反馈 节点 的 突 触 权 值 。 挎 阵 W, 代表 
连接 到 输入 层 源 节点 的 这 些 隐 藏 神经 元 的 突 触 权 值 。 为 了 简化 式 (15. 10) 的 构成 ， 状 态 
模型 中 排除 了 偏 置 的 使 用 。 

。 SRW. 代表 输出 层 中 连接 到 隐 含 神经 元 的 娟 个 线性 神经 元 的 罕 触 权 值 。 这 里 再 一 次 
输出 层 的 偏 置 被 忽视 了 以 简化 表达 。 

。 非 线性 函数 oC) 代表 隐藏 神经 元 的 sigmoid 激活 函数 。 激 活 函 数 通常 具有 双 曲 正切 的 
形式 : 

g(x) = tanh(r) = a (15. 13) 
或 logistic 函数 的 形式 : 


(15. 14) 


_ 1 
g(x) E 1 +e” 
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式 (15.10) 和 式 (15. 11) 描 述 了 状态 空间 模型 递归 网 络 的 一 个 重要 性 质 ， 即 它 是 所 有 非 线性 
动态 系统 的 通用 逼近 器 。 具 体 可 以 陈述 如 下 : 


如 果 网 络 具 有 充分 多 的 隐藏 神经 元 ， 任 意 的 非 线性 动态 系统 可 以 由 递归 神经 网 络 以 期 望 的 
精确 度 来 通 近 ， 对 于 状态 空间 的 紧 致 性 没有 限制 。 
确实 ， 关 于 通用 逼近 的 深刻 陈述 是 递归 网 络 用 于 信和 号 处 理 和 控制 应 用 的 计算 能 力 的 证 据 。 
例 1 全 连接 递归 网 络 
ATARE W., W, 和 W. 的 组 成 ， 考 虑 图 15. 6 所 示 的 完全 连接 递归 网 络 ， 其 中 反馈 
路 径 来 自 隐藏 神经 元 。 在 这 个 例子 中 , m= 2,q 二 3,p = 1, ÆR W, W 定义 如 下 : 
Wi Wir Wiz 
W, = 区 Wo, We 


T31 W32 W33 





其 中 矩阵 W, 的 第 一 列 由 ,pps 组 成 ， 分 别 代 表 神 经 元 1,2,3 的 偏 置 项 。 和 矩阵 W, 是 一 个 行 


向 量 ， 定 义 为 
w, = [1,0,0] = 


单位 时 间 延 迟 





输入 层 计算 层 
图 15.6 有 两 个 输入 、 两 个 隐藏 神经 元 和 一 个 输出 神经 元 的 完全 连接 递归 网 络 
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15.4 可 控 性 和 可 观测 性 


前 面 已 提 到 过 ， 许 多 递归 网 络 能 用 图 15. 2 所 示 的 状态 空间 模型 表示 ， 其 中 状态 定义 为 通 
过 一 系列 延迟 单元 反馈 回 输入 层 的 隐藏 层 输 出 。 在 此 背景 下 ， 知 道 递 归 了 网络 是 否 可 控 和 可 观测 
是 很 重要 的 。 可 控 性 是 指 我 们 能 否 控制 递归 网 络 的 动态 行为 。 可 观测 性 是 指 我 们 能 否 观 测 到 应 
用 于 递归 网 络 的 控制 结果 。 | 
说 递归 网 络 是 可 控 的 ， 是 指 在 有 限时 间 步 内 ， 初 始 状 态 可 以 控制 到 任意 想 达 到 的 状态 ; 输 
出 与 这 个 定义 无 关 。 说 递归 网 络 是 可 观测 的 ， 是 指 在 有 限 的 输入 /输出 度量 中 网 络 的 状态 可 以 
确定 。 在 线性 系统 理论 中 对 可 控 性 和 可 观测 性 的 概念 有 完整 的 论述 。 在 这 里 学 习 的 递归 神经 
网 络 中 ， 我 们 将 自己 限制 在 可 控 性 和 可 观测 性 的 局 部 形式 。 局 部 是 指 将 这 些 概 念 应 用 于 网 络 平 
衡 状 态 邻 域 的 意义 下 ， 在 第 13 章 中 讨论 了 平衡 状态 的 细节 。 
如 果 对 于 输入 u 和 一 个 待定 义 的 矩阵 Al, EE ARF 
x = Aix (15. 15) 
就 说 状态 是 式 (15. 10) 的 一 个 平衡 状态 。 
为 了 简化 阐述 ， 平 衡 状态 由 下 面条 件 描 述 
0 一 中 0) 对 x=0， 
换 名 话说， 原点 (0.0) 代表 平衡 点 。 
同样 不 失 一 般 性 ， 我 们 可 以 限制 到 一 个 单 输入 、 单 输出 (single input, single output, SI- 
SO) 系统 来 简化 我 们 的 论述 。 可 以 把 式 (15. 10) 和 式 (15. 11) 分 别 改 写 为 
Xa = OCW,x, + wou.) (15. 16) 
和 
Vn = WX, (15.17) 
其 中 w 和 W. 都 是 g X1 的 列 回 量 ，w, 是 标量 输 和 人 ，y, 为 标量 输出 。 由 于 9 对 应 于 式 (15. 13) 
或 式 (15. 14) 的 sigmoid 函数 是 连续 可 微 的 ， 我们 可 以 通过 在 平衡 态 x 二 0 和 = 二 0 的 附近 把 式 
(15. 16) 展 开 成 Taylor 级 数 而 使 其 线性 化 ， 并 保留 一 阶 项 ， 得 到 
Xa 一 PO) W.éx, + OO) wdu, (15. 18) 
其 中 ox, Adu, 是 分 别 应 用 到 状态 和 输入 的 小 位 移 。9X9 和 矩阵 OO) 是 中 (v) Æ v=0 时 对 变量 
v 的 Jacobi 行列 式 。 我 们 可 以 描述 线性 化 的 系统 如 下 : 


OX. 一 A, ox, + a,du, (15. 19) 
和 
Oy, = W.OX, (15. 20) 
其 中 gXq SA A 和 gqX1 列 向 量 a 分 别 定义 如 下 : 
A, = ®(0)W, (15. 21) 
和 
a, = 0(0)w, (15. 22) 


状态 方程 (15. 19) 和 (15. 20) 是 标准 的 线性 形式 。 因 此 可 以 利用 线性 动态 系统 的 可 控 性 和 可 观测 
性 的 众所周知 的 结果 ， 它 们 是 数学 控制 论 的 一 个 标准 部 分 。 
局 部 可 控 性 
从 线性 化 的 方程 (15. 19) ， 重 复 和 迭代 产生 下 列 结果 
OX, 一 A, dx, 十 adu, 
Xm = Al16x, + Alaz Ou, + Az Ôu ni 
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OXntg Ai ox, +AT aðu, F Riž 十 Ay a2 OU rtg? ae az OU nyg- 
其 中 g 是 状态 空间 的 维 数 。 相 应 地 ， 我 们 可 以 说 (Levin and Narendra, 1993): 


方程 (15. 19) 表 示 的 线性 化 系统 是 可 控 的 ， 如 果 甜 阵 
M, = [AZ ' a; t, A; ,a ,a, | (15. 23) 
有 秩 g， 即 满 秩 ， 因 为 这 样 线性 化 的 系统 (15.23) 有 唯一 的 Ox tg M Unt Unig 的 表 
Ts WE A, a 和 6x，。 


矩阵 M. 称 为 线性 系统 的 可 控 性 矩阵 。 
设 方程 (15. 16) 和 (15. 17) 描 述 的 递归 网 络 由 一 系列 输入 mu 驱动， 其 定义 为 
u = [Up ster ss Ute 1 (15. 24) 
因此 可 以 考虑 映射 
G(X, Ug) = (Xn, Xr) (15. 25) 
其 中 G:R”>R”. EJA 15.4 中 证 明 ， 
。 状态 x+y 是 其 过 去 值 X, 和 输入 wu， ,Untl 9° °° y Untal HY te EJE ZR FE PR BR 
。 x+ 关于 uw, 的 Jacobi E EGU AS FR 15. 23) 的 可 控 性 矩阵 M.. 
我 们 可 以 把 映射 G 关于 ua Al x, 的 Jacobi 和 矩阵 在 原点 (0, 0) 的 值 表 示 为 


Ox ÒX mi 
a ( ox, 二 = f H (15. 26) 


OX, OX 0 M. 
a ) (0,0) ae (0,0) 


HPI AAs, OR SEH, WX 是 不 感 兴趣 的 部 分 。 因 为 它 的 特殊 形式 ，Jsio) 的 行列 式 
等 于 单位 矩阵 I 的 行列 式 〈( 等 于 1) 和 可 控 性 矩阵 M. 的 行列 式 乘 积 。 如 果 M. 是 满 秩 和 矩阵， 那 
A Joo EE WEH 

为 了 继续 处 理 ， 我 们 需要 引用 反 函数 定理 ， 它 可 以 陈述 如 下 (Vidyasagar, 1993): 


者 虑 映射 f: R' 一 RR*， 假 设 映 射 f 的 每 一 个 分 量 对 于 它 的 变量 在 平衡 点 xo 巨 区 ?都 是 可 微 
的 ， HS y=f(x). 那么 存在 开 集 UCRR* Asx, AVER” ELA Yos 使 得 了 为 咏 到 中 上 的 微分 
同 胚 。 如 果 了 ff 还 是 光滑 的 ， 那 么 北上 映射 f!1; 民 和 一 民 * 也 是 光滑 的 ， 即 是 光滑 微分 同 胚 。 


映射 f:U 一 VY 如 果 满 足下 列 3 个 条 件 (参见 第 7 章 ) ， 则 说 它 是 叹 到 站 上 的 微分 同 胚 : 

l. AD 一 人。 

2. 上 映射 f; 员 一 和 是 一 对 一 的 〈 即 可 逆 的 )。 

3. 道 映射 全 ! :YW 一 的 每 个 分 量 关 于 它 的 变量 是 连续 可 微 的 。 

回 到 可 控 性 的 问题 ， 我 们 将 对 式 (15. 25) 定 义 的 映射 验证 满足 反 范 数 定理 中 的 fQL = VA 
A. NAR eH. MRAM. 的 秩 为 gq， 可 以 说 局 部 存在 一 个 反映 射 ， 定义 为 

(Xn Xr) = GG Kl) : l (15. 27) 

式 (15. 27) 实 际 上 指出 存在 一 个 输入 序列 能 局 部 驱动 网 络 在 g 个 时 间 步 中 从 状态 x, 到 x,。。 所 
以 ， 我 们 可 以 正式 陈述 局 部 可 控 性 定理 如 下 (Levin and Narendra，1993)， 


假定 递归 网 络 由 式 (15.16) 和 式 (15.17) 定 义 ， 它 在 原点 《 即 平衡 点 ) 附近 的 线性 化 方程 由 
式 (15.19) 和 式 (15.20) 定 义 。 如 果 线 性 化 系统 是 可 控 的 ， 则 递归 网 络 在 原点 附近 是 局 部 可 
控 的 。 





Ce) ca 
Jow = 
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局 部 可 观测 性 
重复 使 用 线性 化 的 式 (15. 19) 和 式 (15. 20)， 可 得 
OV, = WIÒX, 


OY nH = WL Xi -= w A. ox, ac wi adu, 


OV ntg-1 = wi Af ‘6x, Eg w Af? a,0u, 十 …… + w. Ai az OU mt+q—3 + Wi Az OU nig? 
其 中 g 是 状态 空间 的 维 数 。 所 以 ， 我 们 可 以 陈述 (Levin and Narendra, 1993): 
式 (15. 19) 和 式 (15. 20) 描 述 的 线性 化 系统 是 可 观测 的 ， 如 果 和 矩阵 
M, = [w.,w, A] s wW CAD | (15. 28) 
的 秩 为 q» 即 满 秩 。 
矩阵 M, 称 为 线性 系统 的 可 观测 性 和 矩阵。 
令 用 于 驱动 由 式 (15. 19) 和 式 (15. 20) 描 述 的 递归 网 络 的 一 系列 输入 定义 如 下 : 


We a ot Unig 2 lt C15. 29) 
相应 地 ， 令 

Yan 一 [yy yao] (15. 30) 
代表 由 初始 状态 x, 和 输入 序列 ww- 产生 的 输出 向 量 。 那 么 我 们 可 以 考虑 映射 

Hlin Xr) = ein Youn) (15. 31) 


其 中 H: R '>R*!, EJE 15.5 中 证 明 yj; 对 x 的 Jacobi WE H EE AKETA 
(15.28) 的 可 观测 矩阵 M,。 因 此 H 关 于 -和 的 Jacobi 和 矩阵 在 原点 (0,0) 的 值 可 表 
示 为 








(a) = 
Jo,o = 


Upi ,n Yan 
Coo PP Cae M Ze! F ai (15. 32) 


(aa) (ma) 0 M. 
OX, / (0,0) OX, / (0.0) 
其 中 XX 同样 为 不 感 兴趣 的 部 分 。Ji8o) 的 行列 式 等 于 单位 矩阵 工 的 行列 式 (等 于 1) AMER M, 
的 行列 式 的 乘积 。 如 果 M, 是 满 秩 ， 那 么 Ji86, 也 是 。 引 用 反 函 数 定 理 ， 可 以 说 如 果 线 性 化 系统 
的 可 观测 性 矩阵 M, 是 满 秩 的 ， 则 存在 一 个 逆 上 映射， 定义 为 

(miest = H aTa) (15. 33) 


实际 上 ， 这 个 等 式 表 明 在 原点 的 局 部 邻 域 ，x 是 in i Yon IER RR, JE 2R HE R R E E 
归 网 络 的 观测 器 。 因 此 局 部 可 观测 性 定理 可 正式 地 陈述 如 下 (Levin and Narendra, 1993); 


由 式 (15.16) 和 式 (15.17) 所 定义 的 递归 网 络 ， 令 它 在 原点 〈 即 平衡 点 ) 附近 线性 化 的 形式 
由 式 (15.19) 和 式 (15. 20) 所 定义 。 如 果 线 性 系统 是 可 观测 的 ， 则 递归 网 络 在 原点 附近 是 可 观 
测 的 。 

例 2 简单 状态 空间 模型 的 可 控制 性 和 可 观测 性 


考虑 具有 和 矩阵 A =a 的 状态 空间 模型 ， 这 里 a 是 标量 , I 是 单位 矩阵 。 式 (15. 23) 的 可 控 
性 和 矩阵 M. 简化 为 








M, = a[a;,** ,a ,a | 
EERE l Hik, RAEE A 的 值 的 线性 化 系统 是 不 可 控 的 。 
在 式 (15. 28) 中 置 A = 一 aI， 得 到 可 观测 性 矩阵 
M, = aLw. ,Ww.,** ,we 
ww ai bot. com TOHO0000 
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它 的 秩 也 为 1。 这 个 线性 系统 也 是 不 可 观测 的 。 a 
15.5 递归 网 络 的 计算 能 力 


如 图 15. 2 所 示 的 状态 空间 模型 和 图 15.1 的 NARX 模型 ， 递 归 网 络 具 有 模拟 有 限 状 态 自 
动机 的 固有 能 力 。 自 动机 表示 像 计 算 机 一 样 的 信息 处 理 设备 的 抽象 。 实 际 上 自动 机 和 神经 网 络 
有 久远 的 渊源 ' 。Minsky 在 他 1967 年 的 书 《Computation: Finite and Infinite Machines》 中 第 
55 页 有 如 下 重要 的 说 明 : 


“每 一 有 限 状 态 机 等 价 于 某 神 经 网 络 ， 并 且 可 以 由 它 模 拟 。 也 就 是 说 ， 给 定 一 有 限 状 态 机 
抽 ， 可 以 建立 一 个 神经 网 络 N4*， 若 将 它 看 做 一 个 黑箱 机 器 ， 则 其 行为 本 似 M1” 


递归 网 络 的 早期 工作 用 硬 的 阐 值 逻辑 作为 神经 元 的 激活 函数 而 不 用 软 的 sigmoid 函数 。 

也 许 是 Cleeremans(1989) 第 一 个 报道 了 展示 递归 网 络 能 否 学 会 由 小 型 有 限 状 态 语法 所 包 
含 的 例外 偶发 性 ) 的 试验 。 特 别 ， 由 语法 导出 的 字符 串 赋 给 简单 递归 网 络 〈 见 图 15. 3) ， 需 
要 它 在 每 一 步 预 测 下 一 字母 。 预 测 是 上 下 文 相 关 的 ， 因 为 每 一 个 在 语法 中 出 现 两 次 的 字母 每 次 
它 的 后 继 字 母 都 不 同 。 这 表明 网 络 能 够 在 隐藏 神经 元 中 发 展 对 应 自动 机 〈 有 限 状态 机 ) 状态 的 
内 部 表示 。 在 Kremer(1995) 表明 简单 递归 网 络 有 和 任何 有 限 状 态 机 一 样 
的 计算 能 力 。 

在 一 般 意 义 下 ， 递 归 网 络 的 计算 能 力 体 现在 两 个 主要 定理 。 

定理 (Siegelmann and Sontag, 1991) 


所 有 图 灵机 都 可 由 建立 在 用 sigmoid 激活 函数 的 神经 元 上 的 完全 连接 递归 网 络 模拟 ， 


图 灵机 是 Turing(1936) 发 明 的 抽象 计算 工具 ; 其 数学 模型 比 有 限 状态 自动 机 更 一 般 。 因 
此 ， 通 过 递归 网 络 来 模拟 图 灵机 是 更 具 挑 战 
性 的 命题 。 它 由 图 15.7 所 示 的 三 个 功能 块 
构成 : 

1. 控制 单元 ， 假设 任何 可 能 的 有 限 状 态 
=, 

2. 线性 带 ， 假 设 在 两 个 方向 上 是 无 限 的 ， 
被 划分 成 分 离 的 方块 ， 每 个 方块 都 可 以 存储 一 
个 单一 的 符号 ， 这 些 符 号 是 从 一 个 有 限 的 符号 
集合 中 取出 的 。 图 15.7 图 灵机 

3. 读 写 头 ， 活 着 线性 带 移动 ， 并 从 控制 单元 得 到 信息 和 把 信息 传送 到 控制 单元 。 

函数 f(z)〉 称 为 是 可 计算 的 ， 如 果 存 在 图 灵机 ， 在 给 定 自 变量 z 表示 的 带 时 ， 最 终 在 带 表 
WÉ f(x)〉 时 停止 。 然而， 这 一 思想 是 有 问题 的 ， 因 为 计算 思想 缺少 正式 定义 。 无 论 如 何 ， 
Church-Turing 理论 认为 图 灵机 能 够 计算 任意 可 计算 洋 数 ， 这 一 理论 被 作为 充分 条 件 而 广 为 接 
受 (Russell and Norvig, 1995), 

Æ I (siegelmann &, 1997) 


对 于 NARX 网 络 ， 若 具有 一 隐藏 层 单元 ， 其 激活 函数 为 有 界 和 单 侧 饱和 的 并 且 有 一 个 线 
性 输出 神经 元 ， 那 么 不 计 线 性 延迟 〈linear slowdown)， 它 可 以 模拟 用 完全 连接 的 具有 有 界 且 
单 侧 饱和 的 激活 函数 的 递归 网 络 。 


线性 延迟 是 指 如 有 果 一 个 完全 连接 的 有 N 个 神经 元 的 递归 网 络 在 时 间 T 内 计算 一 个 我 们 感 
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兴趣 的 任务 ， 那 么 等 价 的 NARX 网 络 所 占用 的 总 时 间 是 ON+TDT. MR oC) 如 果 满 足下 列 
条 件 则 说 它 是 有 界 且 单 边 饱和 的 Cbounded, one-sided saturated, BOSS) 函数， 


1. AB ol) 和 值 域 有 界 ; 即 c 委 pCz) 委 9，a 天 0， 对 于 所 有 <zER。 
2. 函数 pl) 是 左 饱 积 的 ; 踊 友 在 值 s 和 S， 对 于 所 有 的 ccs, A g(x) 一 S，。 
3. AB ol’) 是 非常 数 的 ; 即 存 在 不 相同 的 两 个 数 Zi 和 x， 满足 p(zi) 天 p(Czs)。 


By {fl (Heaviside) 和 分 段 线性 函数 满足 BOSS 条 件 。 但 是 在 严格 意义 上 sigmoid 函数 不 是 
一 个 BOSS 函数 ， 因 为 它 不 满足 条 件 2。 但 是 做 一 个 小 的 修改 ， 它 可 以 满足 BOSS 条 件 ， 即 写 
w CE logistic 函数 的 情况 和 下) 


1 
po = TF Mage 
0; Macs 
其 中 zE R 。 实 际 上 ， 在 r<s 时 logistic 函数 是 截断 的 。 
作为 定理 1 和 和 定理 二 的 推论 ， 我 们 可 以 得 到 (Giles，1996): 
有 一 个 隐藏 层 神经 元 且 激 活 函 数 为 BOSS 函数 及 一 个 线性 输 
出 神经 元 的 NARX 网 络 是 图 灵 等 价 的 。 


图 15. 8 给 出 定理 工 和 定理 及 这 个 推论 的 图 解 。 但 是 ， 必 
须 注 意 当 网 络 体系 结构 受到 限制 时 ， 递 归 网 络 的 计算 能 力 了 不 再 15.8 定理 工 和 定理 下 及 
成 立 ， 如 同 在 Sperduti(1997) 描述 的 一 样 。 在 注释 7 中 给 出 受 限 它们 的 推论 的 图 解 
制 的 网 络 体系 结构 的 参考 文献 。 


15.6 学 习 算 法 


现在 来 研究 递归 网 络 的 训练 问题 。 第 4 章 讨论 过 普通 (静态) 多 层 感知 器 的 两 种 方式 : 批 
量 方式 和 随机 〈 串 行 ) 方式 。 在 批量 方式 中 ， 网 络 的 敏感 度 是 在 调整 网 络 的 自由 参数 前 针对 整 
个 训练 集 计 算 的 。 在 随机 方式 中 ， 参 数 的 调整 是 在 给 出 训练 集 的 每 一 个 模式 的 表示 之 后 进行 
的 。 同 样 ， 有 两 个 训练 递归 网 络 的 方式 如 下 (Williams and Zipser, 1995): 

1. 分 回合 (epochwise) 的 训练 。 在 给 定 的 回合 ， 递归 网 络 利用 输入 -目标 响应 对 的 时 间 序 
列 从 初始 状态 出 发 到 达 一 个 新 的 状态 后 停止 ， 此 时 训练 亦 停止 ; 然后 对 于 下 一 个 回合 又 重新 设 
置 一 个 新 的 初始 状态 。 初 始 状 态 在 每 个 训练 时 期 并 不 总 是 一 样 的 。 重 要 的 是 对 于 新 的 回合 的 初 
始 状 态 和 网 络 在 此 前 一 个 回合 到 达 的 状态 不 一 样 。 例 如 ， 考 虑 用 递归 网 络 模 拟 有 限 状态 机 的 运 
行 。 在 这 种 条 件 下 ， 有 理由 使 用 分 回合 的 训练 ， 因 为 我 们 有 很 大 的 可 能 性 用 递归 网 络 去 模拟 机 
器 中 大 量 的 不 同 的 初始 状态 和 不 同 的 最 终 状态 的 集合 。 在 递归 网 络 的 分 回合 训练 中 ，“ 回 合 ” 
与 一 般 普通 多 层 感 知 器 中 使 用 的 意义 不 同 。 尽 管 在 多 层 感知 器 的 训练 的 一 个 回合 包含 整个 答 
和 人 -目标 响应 对 的 训练 样本 ， 递 归 网 络 训练 的 回合 包含 时 间 串 行 输入 -目标 响应 对 的 一 个 训练 
模式 。 

2. 连续 训练 。 训 练 的 第 二 种 方法 适合 于 没有 可 用 的 重 置 状 态 或 需要 在 线 学 习 的 情况 。 
连续 训练 的 显著 特征 是 网 络 学 习 和 被 网 络 处 理 的 信号 处 理 同 时 进行 。 简 单 地 说 ， 学 习 过 程 永 
不 停止 。 例 如 ， 考 虑 让 递归 网 络 去 对 一 个 非 稳 态 过 程 如 语音 信号 建 模 。 在 这 种 情况 下 ， 网 络 
的 连续 运行 不 能 提供 方便 的 时 刻 以 决定 何 时 停止 训练 而 重新 开始 用 网 络 不 同 自由 参数 的 值 。 

记 住 这 两 种 训练 的 方式 ， 在 下 面 的 两 节 中 我 们 将 描述 递归 网 络 的 不 同 的 学 习 算 法 ， 可 概述 
如 下 : 
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© 在 15.7 节 讨论 的 通过 时 间 的 反 向 传播 (back-propagation-through-timne，BPTT) 算法 
是 在 这 样 的 前 提 下 提出 的 ， 即 递归 网 络 的 时 序 操作 可 以 展开 为 一 个 多 层 感 知 器 。 这 就 
为 标准 反 向 传播 算法 的 应 用 铺 平 了 道路 。 通 过 时 间 的 反 向 传播 算法 可 以 用 分 回合 的 方 
式 、 连 续 方 式 或 两 种 方式 的 组 合 来 实现 。 
。 在 15.8 节 讨论 的 实时 递归 学 习 (RTRL) 算法 是 从 式 (15. 10) 和 式 (15. 11) 描 述 的 状态 
空间 模型 导出 的 。 
基本 上 ，BPTT 和 RTRL 包含 了 导数 的 传播 ,一 个 是 反 向 的 为 一 个 是 前 向 的 。 它 们 能 用 于 任 
何 需 要 利用 导数 的 训练 过 程 。BPTT E RTRL 需要 更 少 的 计算 量 , 但 随 着 上 捉 行 输入 -目标 响应 
对 序列 长 度 的 增加 ，BPTT 需要 的 存储 空间 也 快速 增加 。 一 般 而 言 ， 我 们 因此 说 BPTT 处 理 离 
线 训 练 更 好 ， 而 RTRL 更 适合 于 在 线 连续 训练 。 

两 种 算法 有 很 多 共同 点 。 第 一 ， 它 们 都 是 基于 梯度 下 降 的 方法 ， 因 此 代价 冰 数 的 瞬时 值 
(基于 平方 误差 准则 ) 对 网 络 的 突 触 权 值 被 最 小 化 。 第 二 ， 它 们 实现 都 很 简单 ， 但 可 能 收敛 很 
慢 。 第 三 ， 它 们 是 相关 的 ， 因 为 通过 时 间 的 反 向 传播 算法 的 信号 流 图 的 表示 ， 能 够 由 实时 递归 
学 习 算 法 的 确定 形式 的 信号 流 图 的 表示 经 转 置 而 得 到 (Lefebvre, 1991; Beaufays and Wan, 
1994), 

一 些 启发 

在 开始 这 两 种 学 习 算法 的 描述 之 前 ， 我们 罗列 一 些 对 于 改进 递归 网 络 训练 的 司 发 ， 这 些 训 
练 涉及 梯度 下 降 方 法 的 使 用 (Giles，1996)，: 

。 训练 样本 应 该 按照 字典 顺序 排序 ， 最 短 的 符号 字符 串 首 先 提交 给 网 络 。 

。 训练 应 该 开始 于 一 个 小 的 训练 样本 集 ， 然 后 随 着 训练 进行 逐步 增加 样本 。 

。 只 有 当 正 在 被 网 络 处 理 的 训练 样本 的 绝对 误差 大 于 某 一 指定 的 标准 时 才 应 该 更 新 网 络 

的 突 触 权 值 。 
。 在 训练 过 程 中 建议 使 用 权 值 训 减 ; 权 值 衰减 可 作为 复杂 性 正则 化 〈 第 4 章 讨论 过 ) 的 
一 个 粗略 的 形 云 。 

第 一 个 启发 有 特别 重要 的 意义 。 如 果 可 以 实现 的 话 ， 它 提供 减轻 在 采用 梯度 下 降 方 法 训练 

递归 网 络 时 出 现 的 消失 梯度 问题 。 这 个 问题 的 细节 在 15. 9 节 讨 论 。 


15.7 通过 时 间 的 反 向 传播 


用 于 训练 一 个 递归 网 络 的 通过 时 间 的 反 向 传播 《BPTT) 算法 是 标准 反 向 传播 算法 的 扩 
展 :。 它 可 以 通过 将 网 络 的 时 序 操作 展开 成 一 个 分 层 的 前 馈 网 络 导 出 ， 它 的 拓扑 结构 在 每 个 时 
间 步 增加 一 层 。 

具体 地 ， 让 表示 需要 学 习 时 序 任务 的 递归 网 络 ， 从 时 间 no 开始 一 直到 时 间 n。N* 表示 
对 递归 网 络 和 的 时 序 操作 进行 展开 所 得 的 前 馈 网 络 。 展 开 后 的 网 络 N* 和 初始 网 络 履 的 关系 
WF: 

1. 对 区 间 mn] 内 的 每 一 个 时 间 步 ， 网 络 M* 有 一 个 包含 KK 个 神经 元 的 层 ，K 是 包含 在 
网 络 W 中 的 神经 元 的 数量 。 

2. 在 网 络 N: 的 每 一 层 有 网 络 NW 的 每 一 个 神经 元 的 拷贝 。 

3. 对 每 一 个 时 间 步 IE fn,,n]， 从 网 络 N* 中 4 层 的 神经 元 i 到 1 十 1 层 的 神经 元 7 的 突 触 连 
接 ， 是 在 网 络 W 中 从 神经 元 ;i 到 神经 元 7 的 突 触 连接 的 拷贝 。 

这 些 要 点 在 下 面 的 例子 中 解释 。 

例 3 两 神经 元 递归 网 络 的 展开 

考虑 图 15. 9a 所 未 的 两 个 神经 元 递归 网 络 M。 为 简化 表示 ， 省 略 单位 延迟 操作 符 z= 。 这 
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个 操作 符 应 该 插 和 人 到 图 15. 9a 所 示 罕 触 连 接 〈 包 括 自 连接 环 ) 的 每 一 步 。 通 过 一 步 一 步 地 展开 
网 络 的 时 序 操作 ， 得 到 图 15. 9b 的 信号 流 图 ， 其 中 起 始 时 间 nm。 一 0。 图 15. 9b 代表 分 层 的 前 馈 
网 络 N* ， 其 中 在 每 一 步 时 序 操作 都 有 新 的 层 加 入 。 Ba 


Wi 





时 间 步 0 | 2 ae n n+l 
b) 


图 15.9 a) 两 个 神经 元 递归 网 络 .的 结构 图 ; b) 网 络 N 依 时 间 展 开 的 信和 号 流 图 


依赖 于 使 用 分 回合 训练 或 使 用 连续 实时) 训练， 展开 过 程 的 应 用 导致 通 过 时 间 的 反 向 传 
播 两 个 根本 不 同 的 实现 。 下 面 依次 描述 这 两 种 递归 学 习 方法 。 
分 回合 的 通过 时 间 的 反 向 传播 

将 用 于 递归 网 络 训练 的 数据 集 分 割 为 独立 的 回合 ， 每 一 回合 表示 一 个 感 兴趣 的 时 序 模 式 。 
令 表示 一 个 回合 的 开始 时 间 ，z 表示 其 结束 时 间 。 在 这 个 回合 里 ， 可 以 定义 代价 函数 


Crotal = +>) Sein C15. 34) 
n=n, je sd 


ft rh ay hg pi eB RR Ae Ss j 的 集合 ，ei,* 是 该 神经 元 关于 期 望 响 应 和 计算 
出 的 实际 输出 之 间 的 误差 信号 。 我 们 希望 计算 网 络 的 敏感 度 ， 即 计算 代价 函数 对 网 络 突 触 权 但 
的 位 导 数 。 为 此 ， 可 以 使 用 通过 时 间 的 反 向 传播 (back-propagation-through-time, BPTT) A 
法 ， 这 个 算法 建立 在 第 4 章 讨论 的 标准 反 向 传播 学 习 批量 方式 的 基础 上 。 分 回合 的 BPTT 算法 
进行 如 下 CWilliams and Peng, 1990); 

。 首先 ， 对 时 间 区 间 sm) 执行 单纯 的 数据 前 向 传播 通过 网 络 。 保 存 完整 的 输入 数据 

记录 、 网 络 状 态 〈 即 网 络 的 突 触 权 值 ) 以 及 期 望 响 应 。 
。 对 过 去 这 条 记录 执行 一 个 单纯 的 反 向 传播 通过 网 络 ， 计 算 局 部 梯度 


ea O Crotal 
Oj,n = Uj.» (15. 35) 
的 值 ， WFAN CSA, no CNN] o 这 个 计算 用 公式 
P (zj Ejn ,对 十 nm Ny 
— Fi * 36 
ô; l, CU; n) Le jon 3 S) Wasan ] , 对 于 no Cn <m tia ) 
kel 


进行 ， 其 中 w ®) 是 激活 函数 对 其 自 变 量 的 导数 ，v. 是 神经 元 j 的 诱导 局 部 域 。 这 里 假 
设 网 络 的 所 有 神经 元 有 同样 的 激活 函数 pg(*)。 重 复 使 用 式 (15. 36)， 从 时 刻 m HR, m 
后 一 步 一 步 进 行 直 到 时 刻 n。; 此 处 涉及 的 步 数 与 包含 在 这 个 回合 内 的 步 数 相同 。 
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。 一 旦 执行 反 向 传播 的 计算 回 到 no 十 1 时 ， 对 神经 元 7 ARAL w WU TF: 
Aw; 一 一 7 E 一 yD) ini (15. 37) 
其 中 7 BY RBR, Lini 是 在 时 刻 n 一 1 时 作用 于 神经 元 7 的 第 i 个 突 触 的 输入 。 

比较 刚才 描述 的 分 回合 的 BPTT 的 过 程 和 标准 反 向 传播 学 习 的 集中 方式 ， 可 以 看 出 它们 
根本 的 差别 是 前 者 在 网 络 的 许多 层 里 指定 对 神经 元 的 期 望 啊 应 ， 因 为 实际 输出 层 在 网 络 的 时 序 
行为 展开 时 被 重复 很 多 次 。 
截断 的 通过 时 间 的 反问 传播 

为 了 使 用 通过 时 间 的 反 向 传播 的 实时 形式 ， 我 们 用 误差 平方 和 的 瞬时 值 ， 即 

E = 7 De 

作为 需要 最 小 化 的 代价 函数 。 如 则 标 准 反 向 传播 学 习 的 串 行 〈 随 机 ) 模式 一 样 ， 我 们 使 用 代价 
函数 名 的 负 梯 度 去 计算 对 于 每 个 时 刻 ” 网 络 突 触 权 值 的 适当 调整 量 。 当 网 络 运 行 时 ， 调 整 建立 
在 连续 的 基础 上 。 但 是 为 了 采用 计算 可 行 的 方式 ， 我 们 只 在 一 个 固定 数目 的 时 间 步 内 储存 相关 
的 输入 数据 和 网 络 状态 的 历史 记录 ， 该 时 间 步 数目 称 为 截断 深度 (truncation depth)。 此 后 截 
断 深度 用 天 表示 。 任 何 比 上 疡 时 间 步 早 的 信息 是 无 关 的 ， 因 此 可 以 省 略 。 如 果 不 截 断 计 算 ， 由 此 
容许 回 到 开始 时 间 ， 计 算 时 间 和 储存 要 求 当 网 络 运行 时 会 随时 间 线 性 增长 ， 最 终 达 到 某 点 使 得 
整个 学 习 过 程 成 为 不 可 行 的 。 

算法 的 第 二 种 形式 称 为 截断 的 通过 时 间 的 反 向 传播 (truncated back-propagation-through- 
time, BPTT(h)) 算法 (Williams and Peng，1990) 。 神 经 元 7 的 局 部 梯度 定义 为 





ee | (15. 38) 
Due 并 有 目 n 一 hh 二 i 过 nn 
由 此 导出 公式 
o (Vj) ej al = n 
Orn p Coj) >) Waade MF n-h<cl<n | IR 
ke A 


一 且 执 行 反 向 传播 的 计算 到 达 时 刻 n 一 hh 十 1 时 ， 对 神经 元 7 AR AA w, HEFT ON Pa : 
Awin =) > Oj Ti tl (15. 40) 


其 中 7 A xi MORE 注意 式 (15. 39) 中 wj 的 使 用 需要 保留 权 值 的 历史 记录 。 只 有 当 学 习 
率 参数 7 小 到 足以 确保 权 值 从 一 个 时 间 步 到 下 一 时 间 步 不 会 有 很 大 改变 的 时 候 ， 在 等 式 中 使 用 
wy iA te A 

比较 式 (15. 39) 和 式 (15. 36)， 可 以 看 出 与 分 回合 的 BPTT 算法 不 同 ， 误差 信号 只 有 在 当 
前 时 间 nn 才 会 进入 计算 。 这 就 解释 为 什么 不 保存 过 去 期 望 响应 记录 的 原因 。 实 际 上 ， 截 断 的 道 
过 时 间 的 反 向 传播 算法 对 前 期 时 间 步 的 处 理 ， 和 随机 反 向 传播 算法 (在 第 4 章 讨论 ) MAE 
感知 器 中 的 隐藏 神经 元 的 计算 是 一 样 的 。 
一 些 实际 考虑 

在 BPTT(A) 的 实际 应 用 中 ， 截 断 并 不 像 看 起 来 那样 是 完全 人 为 的 。 除 非 递归 网 络 是 不 稳 
定 的 ， 对 于 导数 3 名 /3v;, 应 该 收敛 ， 这 是 因为 时 间 上 非常 靠 后 的 计算 对 应 于 更 高 的 反馈 能 力 
(粗略 地 等 于 sigmoid 斜率 乘 以 权 值 ) 进行 的 。 在 任何 情况 下 ， 截 断 深 度 疡 应 该 大 到 足以 产生 
接近 实际 值 的 导数 。 这 就 要 求 值 六 有 一 个 低 的 下 界 。 例 如 ， 把 动态 驱动 递归 网 络 用 于 引擎 慢 速 
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(idle-speed) 控制 时 ， 玉 一 30 是 一 个 完成 学 习 任 务 的 相当 保守 的 选择 (Puskorius $, 1996), 
有 序 导 数 方法 

另 一 实际 问题 需要 讨论 。 本 节 讨 论 的 通过 时 间 的 反 向 传播 的 展开 过 程 提供 一 个 利用 相似 层 
随时 间 前 向 处 理 的 级 联 描绘 的 有 用 工具 ， 这 样 可 以 帮助 我 们 深入 理解 过 程 是 如 何 作 用 的 。 然 而 
这 个 优点 也 是 产生 缺点 的 原因 。 在 由 很 少 神经 元 组 成 的 相对 简单 的 递归 网 络 中 过 程 运行 良好 。 
但 是 ， 当 展开 过 程 应 用 到 实际 中 常 遇 到 的 更 一 般 的 结构 时 ， 基 本 公式 ， 特 别 是 式 (15. 39), W 
变 得 繁 抄 。 在 这 种 情况 下 ， 更 好 的 方法 是 用 Werbos(1990) 描述 的 更 一 般 的 方法 ， 此 时 每 层 的 
前 向 传播 每 一 个 表示 引发 一 个 相应 的 反 向 传播 表示 的 集合 。 这 个 方法 的 优点 是 对 前 向 和 递归 
(反馈 ) 连接 的 相似 处 理 。 

为 描述 BPTT(A) 特殊 形式 的 机 理 ， 令 FF ,表示 在 节点 /的 网 络 输出 对 xz 的 有 序 导 数 Cor- 
dered derivative) 。 为 了 导出 反 向 传播 方程 ， 以 相反 的 次 序 考虑 前 向 传播 方程 。 从 每 个 方程 根 
据 下 列 原理 推导 一 个 或 多 个 反 向 传播 表达 式 : 


mRa=olbc), MAP, —2r, 和 F = SEF, (15. 41) 


Ob Oc 
例 4 式 (15.41) 的 说 明 
为 了 让 有 序 导数 的 概念 清晰 ， 考 虑 下 列 两 个 方程 的 非 线性 系统 : 
x, = log u + x} 
y = zi t 3z: 
变量 zs 在 两 个 方面 影响 输出 y 直接 通过 第 二 个 方程 ， 和 间接 通过 第 一 个 方程 。y 对 x; 的 有 
序 导数 由 包括 zs 对 y 的 直接 和 间接 的 作用 效果 的 总 因果 影响 所 定义 ， 可 表示 如 下 : 


F — OY 4 BY y OF 3p (2x) (3) = 3 + 6x r? = 
: OT? O£) OL2 
有 序 导 数 方法 的 其 他 期 望 特征 


在 编写 程序 时 ， 对 BPTT(h) 的 有 序 导数 ， 式 (15. 41) 右 侧 的 每 一 个 有 序 导 数值 被 加 到 左 
侧 的 原来 的 值 上 。 在 这 种 方法 中 ， 适 当 的 导数 从 网 络 中 的 一 个 给 定 的 节点 分 配 到 所 有 以 前 向 方 
式 前 馈 该 节点 的 网 络 其 他 节点 和 突 触 权 值 ， 并 且 对 于 每 一 连接 中 可 能 出 现 的 延迟 做 出 适当 
补偿 。 

式 (15. 41) 描 述 的 简洁 有 序 导 数 表 达 式 减少 了 对 诸如 时 间 展 开 或 信号 流 图 的 可 视 化 的 需要 。 
在 Feldkamp and Puskorius(1998) LAK Puskorius & (1996) 中 ， 利 用 这 个 过 程 产生 了 实现 
BPTT(h) 算法 的 伪 代 码 。 


15.8 实时 递归 学 习 


本 节 我 们 描述 另 一 种 称 为 实时 递归 学 习 Creal-time recurrent learning, RTRL)® 的 学 习 算 
法 ， 在 第 15. 6 节 简 单 描述 过 。 算 法 的 名 称 来 自 于 下 面 的 事实 ， 完 全 连接 网 络 的 罕 触 权 值 调 整 
是 实时 的 ， 也 就 是 说 ， 是 在 网 络 继续 执行 它 的 信号 处 理 功能 的 时 候 《Williams and Zipser, 
1989) 。 图 15. 10 显示 一 个 递归 网 络 结构 布局 。 它 由 g 个 神经 元 和 wm 个 外 部 输入 组 成 。 网 络 有 
两 个 不 同 的 层 : 并 置 的 输入 -反馈 屋 和 计算 节点 的 处 理 层 。 相 应 地 ， 网 络 突 触 连 接 也 是 由 前 馈 
和 反馈 连接 构成 的 。 
网 络 状态 空间 的 描述 由 式 (15. 10) 和 式 (15. 11) 定 义 。 系 统 方程 (15. 10) 重 写成 以 下 扩展 
ER: 
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维 数 为 p 的 


维 数 为 m 的 输出 Hy, 


输入 向 量 u, 
图 15.10 用 于 描述 RTRL 算法 的 完全 连接 递归 网 络 
ge (wi én) 


Xa = | oCw; EE,) (15. 42) 


(wi &,) 


其 中 假设 所 有 的 神经 元 有 相同 的 激活 函数 pg(*)。(g 十 mx 十 1) X1 向 量 w 是 递归 网 络 的 神经 元 7 


的 突 触 权 值 癌 量 ， 即 


Wag 一 
wW = e 了 一 1)，2, 9 (15. 43) 
其 中 wy 和 ws 分别 是 转 置 矩 阵 W 和 Ws 的 第 7 列 。(g 十 m 十 1) X1 hE g, 定义 为 
E, = [| (15. 44) 
ü, 


其 中 x 是 gX1 状态 向 量 ,u 是 (m 十 1) X1 输入 向 量 。u 的 第 一 个 元 素 是 十 1， 对 应 的 w, 的 


第 一 个 元 素 等 于 应 用 于 神经 元 7 的 偏 置 6;。 
为 表达 简单 起 见 ， 引 人 新 的 矩阵 Ano Un M 可 ,， 分 别 描述 如 下 : 
1. A;, 是 状态 向 量 x, 关于 权 值 w; 的 偏 导数 所 构成 的 gqgX (Cg 十 m 十 1) 矩阵: 


_ Ox 
Ow; 


2. U;, 是 gqgX(g 十 mx 十 1) a RE, 除了 第 7 行 等 于 向 量 E; 外 ， 其 他 行 都 为 Q: 


A;n 
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0 
U;,, = C < # jf, jf =1,2,°5q C15. 46) 

0 
3.0, 是 gq Xq MARE. ER 7 个 对 角 元 素 是 激活 函数 对 其 自 变量 的 偏 导 数 ， 可 以 写 
D, = diag(y (WIE), esp (WTE) ss (WEE, (15. 47) 


有 了 这 些 定义 ， 就 可 以 对 式 415. 42) 天 于 w 求 导 。 用 微 积 分 的 链 式 法 则 ， 得 到 下 列 递归 
公式 : 

AH = O, (Wan Ajn HUn), j= 1:2, (15. 48) 
这 个 递归 公式 描述 实时 递归 学 习 过 程 的 非 线性 状态 动力 学 〈 即 状态 演化 ) 。 

为 了 描述 这 个 学 习 过 程 RiT RRE Aj;.; 和 误差 曲面 对 w; DERRE. A, E 
先 用 度量 方程 (15. 11) 定 义 pX1 误差 向 量 ， 


e = d, — y, = d, — W.X, (15. 49) 
其 中 p 是 输出 向 量 y, 的 维 数 。 根 据 e 定义 的 平方 误差 瞬间 和 为 
En = zee, (15. 50) 
学 习 过 程 的 目标 是 极 小 化 由 对 所 有 时 间 n 的 名 RA Fs BR eR. BI 
Erotal = ») Ea 


为 完成 这 个 目标 ， 使 用 最 陡 下 降 方 法 ， 这 就 需要 梯度 矩阵 的 知识 ， 可 写 为 
O Grotal = O En pe i 
Vw Boa = Sw = 2, wi > Vw E, 


其 中 Vw 名, 是 %, 对 权 值 矩阵 W={w) 的 梯度 。 如 果 需 要 ， 可 以 继续 使 用 这 个 方程 并 且 得 到 递 
归 网 络 的 突 触 权 值 的 更 新 方程 ， 并 且 不 用 近似 。 但 是 ， 为 了 得 到 一 个 实时 的 训练 递归 网 络 使 用 
的 学 习 算 法 ， 必 须 使 用 一 个 梯度 的 易 时 估计 值 ， 即 Vw ， 这 就 导致 对 最 陡 下 降 方法 的 近似 。 从 
某 种 意义 上 ， 我 们 遵循 了 第 3 章 中 最 小 均 方 (LMS) 算法 相似 的 方法 。 

回 到 式 (15. 50) ， 以 它 作为 最 小 化 的 代价 函数 ， 求 它 对 权 什 向量 w 的 微分 ， 得 到 


O Én = Oer = OX, N ; = eae 
Ow; (sn) Was WAien， J 1,2; sg (15. 51) 
因此 应 用 于 神经 元 7 的 突 触 权 值 向 量 wi,* 的 调整 由 
Ob, _ Fa 
AWin = 1 Ow; = NW. Anen， 天 一 Least? ,0 C15. 52) 


决定 ， 其 中 7 是 学 习 率 参数 ，Ai,。 由 式 (15. 48) 决 定 。 
现在 仅 剩 下 确定 开始 学 习 过 程 的 初始 条 件 。 为 此 令 
Ajo 二 0 对 于 所 有 (15. 53) 
这 意味 着 递归 网 络 的 初始 状态 停留 在 一 常态 。 
表 15. 1 概括 实时 递归 学 习 算 法 。 这 里 所 描述 的 算法 公式 可 应 用 到 任意 的 对 其 目 变 量 可 微 
的 激活 函数 p(*)。 对 于 特殊 情况 ， 取 双 曲 线 切线 方程 形式 的 sigmoid 非 线 性 函数 ， 我 们 有 
Limi = PlU) = tanh(y,.) 
和 
P (jn) 一 PVin) 一 sech? (vja) = 1— Zhe (15. 54) 


(U;,n 
OUj,n 
其 中 vw, 是 神经 元 i 的 诱导 局 部 域 ，zj,n+1i 是 它 在 nn 十 1 时 刻 的 状态 。 


ww ai bbt.com 000000 





518 .第 15 章 动态 驱动 递归 网 络 


表 15.1 实时 递归 学 习 算 法 小 结 
参数 ， 
mm 一 输入 空间 维 数 
q 一 状态 空间 维 数 
z 一 输出 空间 维 数 
wi 一 神经 元 7 的 突 触 权 值 向 量 , 7 = 1,2,…,q。 
初始 化 : 
1. 对 算法 的 突 触 权 值 赋予 从 一 个 均匀 分 布 中 选 出 的 较 小 值 。 
2. 设 状态 向 量 x(0) 的 初始 值 为 x(0) 一 0。 
3. 对 了 二 1,2,.…,g; 设 Aj,o 二 0。 


HH: 对 n= 二 0,1,2,…，, 计算 
e, = dp — W: x 
AWji,n 一 NW- Aj,nen 
Ajit = DAWoanAjnt Uja), fF = 1.2,° 1g 


Xn An U; 和 O, 的 定义 分 别 由 式 (15. 42) 、 式 (15. 45) 、 式 (15. 46) 和 式 (15. 47) 给 出 。 


从 真实 梯度 行为 推导 

使 用 瞬时 梯度 V。 包 意味 着 实时 递归 学 习 算 法 偏离 建立 在 真正 梯度 Vv Boa A iih E AY AE SKE hf 
算法 。 但 是 ， 该 偏离 和 在 第 4 章 中 使 用 的 训练 多 层 感知 器 的 反 向 传播 算法 很 相似 。 虽 然 实 时 道 
归 算 法 不 保证 和 总 的 误差 沙 数 多 wa CW) 对 权 值 矩阵 W 的 负 梯 度 精确 一 致 ， 但 实时 和 非 实 时 的 
实际 差别 很 小 ; 在 算法 速率 参数 w 减 少时 它们 近似 相等 。 与 真正 梯度 偏离 的 行为 所 导致 的 潜在 
的 最 严重 的 结果 ， 是 观测 的 轨道 (由 绘制 名 对 权 值 矩阵 W 的 元 素 的 图 形 获 得 ) 可 能 取决 于 算 
法 产生 的 权 值 改变 ， 这 也 可 看 作 另 一 个 反馈 源 并 从 而 导致 系统 不 稳定 。 使 参数 了 小 到 让 权 值 变 
化 的 时 间 尺 度 远 小 于 网 络 运 行 的 时 间 尺 度 ， 可 以 避免 生成 这 个 效果 。 基 本 上 ， 这 和 第 3 章 中 对 
LMS 算法 提议 的 算法 稳定 性 是 相同 的 。 

例 $S RTRL 算法 说 明 

针对 图 15. 6 有 两 个 输入 和 一 个 输出 的 完全 递归 网 络 ， 本 例 我 们 提出 RTRL 算法 的 公式 。 
网 络 有 三 个 神经 元 ， 由 例 1 的 矩阵 W.，W 和 W. 构成 。 

由 于 m= 二 2,g 二 3,p 二 1， 从 式 (15. 44) 可 得 


Won 


设 Aun BIRERE Ayn BS RL 个 元 素 。 利 用 式 (15. 48) 和 式 (15. 52) 分 别 得 到 
AWa on = 6d .n a Lin ALM an 
A jntl 一 p Coa) Dy Wajihi, + dyin) 


其 中 8 是 Kronecker delta, BI k=j 时 为 1， 其 他 情况 下 为 0;7,& 一 1,2,3 和 /7 一 1,2,3 和 /一 
1,2,…,6。 图 15. 11 表示 一 个 决定 权 值 调 整 Azww,, 演 化 的 敏感 度 图 。 注 意 WS lw GDS 
1,2,3 AW, = {wi}, = 1,2,3 AM 1=4,5.6, FH, 不 要 将 Kronecker delta 和 15.7 WRF 
BPTT 的 局 部 梯度 相 混 清 。 a 
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图 15.11 图 15.6 的 全 连接 递归 网 络 敏 感度 图 。 注意， 标号 为 避 。 的 三 个 节点 都 看 作 单 输入 


教师 强制 
递归 网 络 训 练 中 经 常用 到 的 策略 是 教师 强制 〈teacher forcing) (Williams and Zipser, 
1989, 1995); 在 目 适 应 性 滤波 中 ， 教 师 强 制 称 为 方程 -误差 (equation-error) 方法 (Mendel, 
1995) 。 基 本 上 教师 强制 涉及 在 网 络 的 训练 过 程 中 每 当期 望 响 应 可 用 时 ， 在 随后 网 络 动态 行为 
的 计算 中 利用 期 望 啊 应 〈 即 目标 信号 ) 替代 实际 神经 元 的 输出 。 虽 然 教 师 强制 是 在 RTRL 算 
法 下 描述 的 ， 它 的 用 法 可 以 应 用 到 另外 的 算法 。 但 是 ,为 了 让 它 是 可 应 用 的 ， 问 题 中 的 神经 元 
必须 将 它 的 输出 反馈 回 网 络 输入 。 
教师 强制 的 良好 效果 包括 (Williams and Zipser，1995): 
。 教师 强制 可 以 使 网 络 训练 更 快 。 原 因 在 于 使 用 教师 强制 等 于 假设 网 络 已 经 知道 属于 那 
些 使 用 教师 强制 的 神经 元 的 任务 的 早期 部 分 。 
。 教师 强制 可 以 作为 训练 期 的 校正 机 制 。 例 如 ， 网 络 的 突 触 权 值 可 能 有 正确 的 值 ， 但 是 
由 于 某 种 原因 网 络 可 能 运行 在 状态 空间 的 错误 区 域 。 显 然 在 这 种 情况 下 ， 调 整 突 触 权 
值 是 错误 的 策略 。 
基于 梯度 的 学 习 算法 使 用 教师 强制 实际 上 是 优化 与 不 用 教师 强制 不 同 的 代价 郑 数 。 教 师 强 
制 算法 和 无 强制 算法 产生 不 同 的 解 ， 除 非 有 关 的 误差 信号 为 0O， 这 时 无 需 学 习 ，。 


15.9 递归 网 络 的 消失 梯度 


递归 网 络 的 实际 应 用 需要 引起 注意 的 一 个 问题 是 消失 梯度 (vanishing gradient)， 它 和 依 
靠 很 久 以 前 的 输入 数据 用 来 训练 网 络 使 之 在 当前 时 刻 产 生 一 个 期 望 响应 有 关 。 由 于 组 合 的 非 线 
PE, 一 个 时 间 上 隔 得 远 的 输入 的 一 个 微小 变化 对 网 络 的 训练 几乎 不 会 产生 影响 。 即 使 时 间 上 隔 
得 远 的 输入 的 大 的 变化 产生 影响 ， 但 影响 不 能 被 梯度 检测 到 ， 这 时 间 题 同样 可 能 出 现 。 消 失 梯 
度 问题 在 一 些 特定 情况 下 使 得 基于 梯度 的 训练 算法 中 长 期 依赖 的 学 习 即 使 不 是 完全 不 可 能 也 是 
变 得 很 困难 。 

在 Bengio 等 (1994) 中 ， 对 许多 实际 应 用 曾经 讨论 过 ， 在 有 了 噪声 的 情况 下 需要 递归 网 络 
能 够 存储 任意 时 间 长 度 的 状态 信息 。 在 递归 网 络 状态 变 量 中 长 期 存储 的 有 限 位 的 信息 称 为 信息 
4 4 (information latching), 信息 锁 存 必须 很 鲁 棒 ， 不 能 被 与 当前 学 习 任 务 无 关 的 事件 删除 . 
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用 特殊 术语 ， 我 们 可 以 陈述 如 下 (Bengio %, 1994), 


如 果 网 络 状态 包含 在 一 个 双 曲 吸引 子 的 压缩 吸引 集中 ， 则 递归 网 络 的 鲁 棒 性 信息 锁 存 就 可 
以 实现 。 


双 曲 吸引 子 的 概念 在 13 章 讨论 过 。 一 个 双 曲 吸引 子 的 压缩 集 是 在 吸引 盆 的 一 个 点 集合 ， 
TE IX EE AAS Jacobi 矩阵 的 所 有 特征 值 的 绝对 值 小 于 1。 这 就 意 昧 着 如 果 递 归 网 络 的 状态 x, 在 一 
个 双 曲 吸引 盆 ， 而 不 在 压缩 吸引 集中 ， ARATE x, 周围 的 一 个 不 确定 球 Chall of uncertainty) 
的 大 小 会 随时 间 而 指数 增长 ， 如 图 15. 12a 所 示 。 所 以 ， 对 于 递归 网 络 输入 的 小 扰动 (噪声 ) 
能 够 将 轨道 推 向 另 一 个 (可 能 是 错 的 ) 吸引 盆 。 但 是 如 果 状 态 x, 继续 保持 在 双 曲 吸引 子 的 压 
缩 吸 引 集中 ， 这 时 在 输入 x, 能 够 找到 一 个 有 界 范 围 使 得 x 停留 在 吸引 子 的 一 定 距离 之 内 ， 如 
图 15. 12b Bras. 





P: 双 曲 吸 引子 
状态 x, 的 域 BPRS 5 | 状态 x 的 域 
a5 yP He AAW S| Fe b) 


15.12 消失 梯度 问题 图 示 : a) REx ERB B 内 但 不 在 压缩 吸引 集 yA: b) 状态 x 在 压缩 
吸引 集 7 内 
长 期 依赖 
为 了 理解 梯度 基础 上 学 习 的 鲁 棒 性 信息 锁 存 的 作用 ， 我 们 注意 在 时 刻 n 应 用 到 递归 网 络 的 


权 值 向 量 w 由 
O Crota 
Aw, =— ge 


调整 ， 这 里 7 是 学 习 率 参数 。9 Bo /Ow Be ee ANG} PA Giora 1 FF A 


Crotal = 3 | d,,, — Yi,n 

定义 ， 其 中 d,. 是 期 望 啊 应 ， a 个 模式 在 时 间 n 时 的 实际 响应 。 因 此 ， 利 用 这 两 
个 方程 ， 可 以 写成 如 下 形式 : 

= i) (din — Yon) = n> (Se 
其 中 在 第 二 行使 用 了 微 积分 的 链 式 法 则 ;状态 向 量 A 个 模式 。 在 应 用 诸 
如 通过 时 间 的 反 向 传播 算法 的 时 候 ， 代 价 函 数 的 但 微分 根据 在 不 同时 间 标 号 的 独立 权 值 进行 计 
算 。 可 以 扩展 方程 (15. 55) 的 结果 如 下 ， 

Aw, = = 7 (Se 2) a aw, ") (di. — Yin) 

第 二 次 应 用 微 积 分 的 链 规则 得 到 


Aw, = 1D) (2s ($e x St) ) (dh。 = Yan) (15. 56) 
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a) din — Yin) (15. 55) 
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根据 状态 方程 (15. 2) 我 们 认识 到 有 
Kin = (Xp) lxk<in 
因此 我 们 可 以 把 Ox: / OX: ERE A TERE PROC 9) TRB n—k 个 时 间 步 的 Jacobi HH, Bp 
OXin  OPCK. UL) 
OX;,4 O 〇 Xi 
在 Bengio (1994) 中 ,证 明 如 果 输 入 u 使 得 递归 网 络 在 时 间 n 王 0 之 后 鲁 棒 地 锁 存 在 双 曲 
吸引 子 肉 ， 则 Jacobi HM Jn AT k 是 指数 递减 的 ， 因 此 有 
det(J se) -一 0 4 k> ”对 于 所 有 的 nn (15. 58) 
式 (15. 58) 的 含义 是 网 络 的 权 值 向 量 w 的 一 个 微小 变化 在 最 近 的 过 去 〈 即 接近 当前 时 间 步 2 的 
k 的 值 ) 有 作用 。 在 时 间 n 时 可 能 存在 权 值 向 量 w 的 调整 Aw 使 得 x, 移动 到 一 个 更 好 的 吸引 
Ro BARN RR Coa X) w 的 梯度 并 不 携带 该 信息 
作为 结论 ， 假设 递归 网 络 的 双 曲 吸引 子 存储 状态 信息 时 使 用 基于 梯度 的 学 习 ， 我 们 可 以 发 
现下 列 两 种 情况 之 一 : 


。 在 输入 信号 具有 嗓 声 时 网 络 不 是 便 棒 的 。 
。 网 络 不 能 发 现 长 期 性 依赖 (即时 间 间 隔 比 较 长 的 输入 和 目标 输出 之 间 的 关系 )。 


减缓 消失 梯度 问题 的 二 阶 方法 

基于 梯度 的 学 习 算 法 的 运行 完全 依赖 于 一 阶 信息 一 一 即 Jacobi 矩阵 、 因 而 它们 不 能 充分 运 
用 训练 数据 的 信息 内 容 。 为 了 提高 在 训练 数据 中 包含 的 信息 的 使 用 从 而 为 消失 梯度 问题 提供 衬 
救 ， 我 们 需要 向 二 阶 方法 寻求 帮助 。 在 这 一 背景 下 ， 我 们 具有 两 个 选择 : 

1. 我 们 能 利用 二 阶 最 优化 技术 ， 如 在 第 2 章 和 第 4 章 讨 论 过 的 拟 和 牛顿 法 、 
Levenberg-Marquardt 法 以 及 共 堪 梯度 法 等 。 尽 管 这 些 非 线 性 最 优化 算法 已 经 证 明了 其 有 效 性 ， 
但 它们 常常 收敛 到 可 怜 的 局 部 极 小 点 ”。 

2, 我 们 能 够 利用 非 线性 逐次 状态 估计 方法 ， 这 在 第 14 章 中 讨论 过 。 在 神经 网 络 的 训练 
中 ， 完 成 了 两 个 功能 : 

。 神经 网 络 中 权 值 的 演化 是 以 逐次 方式 进行 的 。 

。 关于 训练 数据 的 二 阶 信息 是 以 预测 -误差 协 方 差 矩 阵 的 形式 提供 的 ， es 

演化 。 

在 Puskorius and Feldkamp(2001)、Feldkamp “4 (2001), Prokhorov(2006, 2007) 报告 
的 多 方面 工作 中 说 明了 形成 二 阶 神经 网 络 训练 方法 基础 的 非 线 性 逐次 状态 佑 计 过 程 是 现实 而 有 
效 的 ， 可 作为 面向 批量 的 非 线 性 最 优化 技术 的 替代 方法 。 相 应 地 ， 从 此 之 后 我 们 将 注意 力 集中 
于 利用 非 线 性 逐次 状态 估计 过 程 来 训练 递归 多 层 感 知 闪 。 


15.10 ”利用 非 线性 逐次 状态 估计 的 递归 网 络 监督 学 习 框架 


为 了 描述 非 线性 逐次 状态 估计 器 是 如 何在 监督 方式 下 训练 递归 网 络 的 ， 考 虑 围绕 具有 * 个 
突 触 权 值 和 p 个 输出 节点 的 多 层 感知 器 建立 的 递归 网 络 。 用 n 来 记 网 络 监 督 训 练 的 每 一 时 间 
步 ， 令 向 量 w 记 时 间 步 n 时 计算 的 网 络 突 触 权 值 的 全 部 集合 。 例 如 ， 我 们 可 以 这 样 构造 向 量 
w,， 首 先 将 和 第 一 隐藏 层 神经 元 1 相关 联 的 权 值 放 置 在 最 上 面 ， 然 后 是 神经 元 2 WINE, 
这 一 方式 直到 完成 所 有 第 一 隐藏 层 的 神经 元 ; 然后 我 们 对 网 络 中 第 二 和 其 他 隐藏 层 做 同样 的 工 
作 直 到 所 有 网 络 权 值 都 以 刚刚 讨论 的 顺序 体现 在 向 量 w, 中 。 l 

有 了 逐次 状态 估计 的 思想 ， 训 练 下 的 网 络 的 状态 空间 模型 由 下 面 的 模型 对 (参见 图 





二 (15. 57) 
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15.13) 来 定义 : 
1. 系统 《状态 ) 模型 ， 它 是 由 下 面 的 随机 行走 方程 来 描述 的 
Writ = Wa + On (15. 59) 
动态 噪声 o, 是 高 斯 白 品 ， 均 值 为 0， 协 方差 矩阵 为 Q.， 在 系统 模型 中 使 用 它 是 为 了 退火 
(anneal) 在 时 间 上 的 网 络 监督 训练 。 在 训练 的 早期 阶段 ， 采 用 大 的 协 方差 矩阵 QO, RRM 
学 习 算 法 逃离 局 部 极 小 点 ， 然 后 它 渐渐 地 衰减 到 有 限 的 小 值 。 
2. 测量 模型 ， 由 下 面 的 方程 描述 
d, = blw, V, sl ) FU, (15. 60) 
其 中 新 的 单元 定义 如 下 : 

*。 d, 是 可 观测 的 。 

ov, 是 表示 网 络 中 递归 节点 激活 的 向 量 ， 其 元 素 以 和 权 值 向 量 w 一 致 的 顺序 列 出 ;此 

n> PRY, 为 内 部 状态 Cinternal state). 

。 ou, 是 记 作 用 于 网 络 的 输入 信号 的 问 量 ; Blu, 是 作用 于 网 络 的 驱动 力 (driving force), 

。 v, 是 记 破 坏 向 量 d, 的 测量 噪声 的 向 量 ; 它 假 设 为 多 变量 白 唆 过 程 ， 其 均值 为 0， 具有 

对 角 协 方差 矩阵 R, 。 噪 声 源 来 自 于 实际 获得 由 的 途径 中 。 
在 式 (15. 60) 中 给 出 的 向 量 值 测 量 函 数 bC …，) 说 明了 从 输入 到 输出 层 的 多 县 感知 器 的 总 体 
非 线性 性 ; 它 是 递归 网 络 状态 空间 模型 仅 有 的 非 线 性 源 。 

在 所 关心 的 状态 的 范围 内 ， 在 网 络 的 监督 训练 过 程 中 这 个 概念 自然 地 突出 了 两 个 重要 的 
HR: 

1. 外 部 可 调整 状态 ， 在 通过 监督 训练 作用 在 网 络 权 值 的 调整 上 得 到 体现 一 一 因此 在 式 
(15. 59) MITA (15. 60) 描 述 的 状态 空间 模型 中 包含 了 权 信和 向 量 w,- 

2. 内 部 可 调整 状态 ， 它 由 递归 节点 激活 向 量 w 来 表示 ; 这 些 激活 值 是 在 当前 构造 的 监督 
训练 过 程 范围 之 外 的 ， 这 也 是 为 什么 向 量 w 仅仅 包含 在 式 (15. 60) 的 测量 模型 中 的 原因 。 外 部 
作用 驱动 力 〈 输 入 向 量 ) uw ， 动 态 噪声 o, 和 围绕 多 层 感知 器 的 全 局 反馈 是 时 间 ” 上 v 演化 的 
原因 。 

输入 向 量 





递归 网 络 激活 
Va 


图 15.13 在 监督 训练 下 递归 网 络 内 在 动态 的 非 线 性 状态 空间 模型 


利用 扩展 卡尔 曼 滤波 器 的 监督 训练 框架 描述 

给 定 训 练 样本 (ww,d,}) 半 ,， 感 兴趣 的 问题 是 如 何 通过 逐次 状态 估计 器 的 方式 来 监督 训练 递 
归 多 层 感知 器 (RMLP)。 由 于 式 (15. 60), ，RMLP 是 非 线性 的 ， 逐 次 状态 估计 器 将 不 得 不 对 应 
于 非 线性 。 带 着 这 样 的 要 求 ， 我 们 考虑 如 何 将 第 14 章 学 习 过 的 扩展 卡尔 概 滤波 器 (EKT) 用 
于 完成 这 一 工作 。 
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从 我 们 目前 讨论 的 目的 上 看 ， 在 表 15.2 中 总 结 的 EKF 算法 的 有 关公 式 是 如 下 的 两 个 ， 其 


中 利用 了 式 (15. 59) 和 式 (15. 60) 的 状态 空间 
模型 的 术语 。 
1. 革新 过 程 (innovations process), MH 
a, = d, — b(Wi sv ,nm,) (15.61) 
其 中 期 望 〈 目 标 ) 响应 d, 扮演 着 EKF “可 
观测 性 ”的 角色 。 
2. 权 值 (状态 ) 更 新 ， 定 义 为 
Waln = Wael + Gian (15. 62) 
其 中 六 是 在 时 间 n 时 RMLP 权 值 向 量 w 
的 预测 ( 老 ) 估计 ， 给 定 包 含 时 间 ”一 1 的 期 
望 响应 ， 锡 ,1 ,是 接受 到 观测 值 d; 后 w 的 滤波 
CEJ wiit. Æ G, 是 卡尔 曼 增益 ， 它 是 
EKF 算法 的 积分 部 分 。 
检查 RMLP 的 基本 操作 ， 我 们 发 现 
bl Wai n-i+¥, 70, fe RMLP 由 其 “ 老 的 ” 权 
(Al BW... 和 响应 于 输入 向 量 凤 的 内 部 状 
Av, 产生 的 实际 输出 向 量 y,。 因 此 可 以 重 
写 式 (15. 61) 和 式 (15.62) 的 组 合 为 单一 
方程 : 
Wain = War +G,(d, — ya) (15. 63) 
在 这 一 公式 的 基础 上 ， 我 们 现在 可 以 画 出 作 






表 15.2 RMLP 监督 训练 的 EKF 算法 小 结 
训练 样本 : 
F=(u,, da} 
其 中 us 是 作用 于 RMLP OBA. d, 2A A 。 
RNLP AFAR Bea: 参数 和 变量 


ble,» ,*) i 向 量 值 测量 函数 

B : 线性 测量 矩阵 

Wn : 时 间 步 的 权 值 向 量 
LA : 权 值 向 量 的 预测 信 计 

Wr |r : 权 值 向 量 的 滤波 估计 

Ya : RMLP 中 递归 节点 激活 向 时 
Yn : 响应 于 输入 向 量 w 而 产生 的 RMLP 的 输出 向 量 
Q. : 动态 噪声 @, HABE 
Q. : 测量 噪声 v, 的 协 方差 矩阵 
G, : 卡尔 曼 增益 

Py | m1 : 预测 误差 协 方差 矩阵 

Py | n ; 滤波 误差 协 方差 矩阵 

计算 : 


对 =1，2，…， 计 算 如 下 ， 
G. 一 Pi a1 B7 CB, Px | n—1 Bi 十 Q 一 
&, 一 d, 一 ba (ninl Vn Un) 

Wy (n= Wa | ni E Gann 

wadljin = Wain 

P, |n = Pa) n1 ~ Grn Bn Pn) nl 

Parila Print Qs 

初始 化 : 

wi io =[EL wi 






为 两 个 形成 闭 递归 反 饿 系统 的 互相 耦合 分 量 SCE Ee ere 
的 RMLP 的 监督 训练 ， 如 图 15. 14 Bra. 
实际 输出 问 量 
a. sor} | 递归 多 层 RA Ae ae : 
‘i ELL A PURTI EY,,,., ; 
by 单位 时 间 延 壕 模块 ， 
EEE X 预 其 其 ig 响 应 GY, 、 
b) 


图 15.14 包含 RMLP 和 EKF 的 闭 递归 反馈 系统 : 


a) RMLP, SUH EW, |... WATERMAN Su, 上 来 产生 


输出 向 量 yn; b) EKF， 提 供 了 预测 1.1 一 y,， 运 行 在 期 望 响应 上 来 产生 滤波 权 值 向 量 W, ,一 
久 ,111»。， 从 而 为 下 一 次 迭代 准备 闭 递 归 反 馈 系统 


1. 图 的 顶部 画 出 了 部 分 从 网 络 角 度 看 的 监督 学 习 过 程 。 权 值 向 量 被 设 为 其 老 的 “ 巴 镜 ) 
值 夺 ,，,_; ，RMLP 计算 相应 于 输入 向 量 uw 的 实际 输出 向 量 y,。 因 此 ，RMLP 给 EKF 提供 了 yu 


作为 观测 值 一 一 d,, :的 预测 估计 。 


2. 图 的 底部 画 出 了 EKF 作为 训练 过 程 的 便捷 器 〈facilitator) 的 角色 。 设 dain = Yas 
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EKF 通过 在 当前 期 望 响 应 d, 上 运行 来 更 新 权 值 向 量 的 老 的 估计 。 权 值 向 量 的 滤波 估计 “《〈 即 
win) AMTEAR. 63) 来 计算 。 这 样 通过 EKF it} SMW... REA RMLP 作为 单位 时 
a] 2E iR AE HR, 

有 了 等 于 单位 矩阵 的 转移 矩阵 ， 如 式 (15. ODE. RIITAA FRERE ATF 
络 ,| 。。 这 一 等 式 允 许 重复 监督 训练 直到 训练 终止。 

注意 在 图 15. 14 的 监督 学 习 框 架 中 ， 训 练 样本 = {u,,d,) 是 RMLP 和 EKF 之 间 的 分 割 : 
输入 向 量 u, 作用 在 RMLP 上 作为 激发 ， 期 望 响应 d, 作用 在 EKF 上 作为 观测 ， 它 是 独立 于 隐 
RUA CRA) 向量 w, 的 。 

在 第 14 章 中 ,我们 强调 作为 卡尔 曼 滤波 器 ， 其 变量 和 扩展 的 预测 器 -修正 器 性 质 这 一 内 在 
特性 。 根 据 这 一 性 质 ， 检 查 图 15. 14 的 块 状 图 ， 我 们 可 以 做 如 下 陈述 : 

递归 神经 网 络 的 训练 完成 预测 器 的 角色 ; 而 扩展 卡尔 曼 滤 波 器 的 监督 学 习 完 成 修正 器 的 
角色 。 


因此 ， 在 卡尔 曼 滤 波 器 对 逐次 状态 估计 的 传统 应 用 中 ， 预 测 器 和 修正 器 隐藏 在 卡尔 曼 滤波 
器 自身 中 ， 在 监督 训练 的 应 用 中 ， 这 两 个 角色 在 递归 神经 网 络 和 扩展 卡尔 曼 滤 波 器 之 间 被 分 割 
开 。 这 样 的 监督 学 习 中 的 责任 分 割 很 好 地 对 应 了 在 图 15. 14 中 训练 样本 了 的 输入 和 期 望 响应 元 
素 的 分 割 。 
EKF 算法 

为 了 利用 EKF 算法 作为 监督 学 习 任 务 的 便捷 器 ， 我 们 需要 通过 重新 训练 式 (15. 60) 非 线性 
部 分 的 Taylor 展开 的 一 阶 项 来 线性 化 式 (15. 60) 的 测量 方程 。h(Cw,,vu') 是 唯一 的 非 线 性 源 ， 


我 们 用 和 下 式 逼 近 式 (15. 60): 
d, = B,w, Hv, (15. 64) 


其 中 B, 是 线性 化 模型 的 pXs MEE, KHL RMLP 的 p 个 输出 对 其 s 个 权 值 
的 偏 导数 ， 得 到 矩阵 











a, Oh oh] 
OW OW? OW, 
dba db db 
B= |ow dw, ow, (15. 65) 
Əb, bp ... by 
OW) OW? OW, 
其 维 数 是 pXs。 认 识 到 权 值 向 量 w 的 维 数 是 ;， 则 有 和 矩阵 积 Bw 是 pX1 向 量 ,， 这 和 观测 值 d 的 


维 数 很 好 她 匹配 。 

在 bCw,v, ,uw,) 中 的 向 量 w 保持 相同 的 常数 值 ， 在 式 (15. 65) 中 时 间 步 n 被 省 略 了 用 来 简化 
表达 。 方 程 中 6,1 二 1,2,…,p， 记 向 量 函 数 bw, syu) 的 第 i 个 元 素 。 根 据 第 14 章 的 式 
(14. 70) ， 方 程 右 端 项 的 偏 导数 在 Ww. = Ww Li, Pw, BR w, EN ln 上 的 预 
测 ， 给 定 包含 时 间 ”一 1 的 期 望 响应 。 

实际 上 ， 式 (15. 65) 的 偏 导数 使 用 通过 时 间 的 反 向 传播 (BPTT) 或 者 实时 递归 学 习 
(RTRL) 算法 来 计算 。 FXE, EKF 算法 建立 在 这 两 个 算法 的 一 个 或 其 他 算法 基础 上 ， 这 两 
个 算法 已 在 15.7 节 和 15. 8 节 中 描述 过 。 这 里 的 意思 是 b 必须 是 递归 节点 激活 的 函数 ， 这 在 式 
(15. 60) 的 测量 方程 中 说 明了 。 
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式 (15. 59) 的 状态 演化 方程 是 线性 的 ， 因 此 它 不 受 测量 方程 线性 化 的 影响 。 因 此 ， 递 归 网 
络 的 线性 状态 空间 模型 允许 定义 在 式 (15. 59) 和 式 (15. 64) 的 EKF 的 应 用 。 


Re RD JB AR & DE WE ah 


在 表 1.27 RAY RERBSBRRE EKP 的 计算 需要 ， 主 要 是 在 每 个 时 间 步 ”存储 和 
更 新 滤波 误差 协 方差 矩阵 Pan MTESA p 个 输出 节点 和 s 个 权 值 的 递归 神经 网 络 而 言 ，EKF 
对 大 的 *， 这 些 需求 可 能 是 高 要 求 。 在 这 种 情 
次 下 ， 我 们 可 以 通过 解 耦 扩展 卡尔 曼 滤 波 器 (DEKF) 作为 计算 资源 合适 管理 的 实际 补正 


的 计算 复杂 度 是 O(Cps )， 其 存储 需求 是 OCs’). 


(Puskorious and Feldkamp，2001) 。 


DEKF i nett E i i 这 样 可 控制 的 多 个 


ORS ARMA Hee PL. Po. BARK, 
QO FR Pd 2% AX SCE A ORE a 7 SRR. FR ATT 
建 相 互 排斥 的 权 值 组 ， 则 协 方 差 矩 阵 P,,, 构 
造成 如 图 15. 15 所 示 的 对 角 块 形式 。 

令 g 记 指定 的 以 刚刚 描述 的 方式 创建 的 
不 相连 权 值 组 个 数 。 因 此 ， 当 i 二 1,2,…， 
g: F 

win = 第 i 组 的 滤波 权 值 向 量 

P 外 一 第 ;组 滤波 误差 协 方差 矩阵 的 子 集 

GP 一 第 ;组 的 卡尔 曼 增益 矩阵 

对 DEKF 中 的 其 他 元 素 也 这 样 做 。 滤 波 
器 权 值 向 量 Wi 的 连接 形成 总 体 滤 波 权 值 向 
Bw, 1,; Ot PY. 和 Gs” 以 及 其 他 DEKF 的 元 
素 应 用 相似 的 记号 。 根 据 这 些 新 的 记号 ， 将 
DEKF 算法 重 写 为 如 下 对 第 i 个 权 值 组 的 
AT: 


图 15.15 








属于 解 耦 卡尔 曼 滤波 器 (DEKF) 的 滤波 误差 
协 方差 矩阵 Pi .的 对 角 块 表示 。 阴 影 部 分 表示 
Pr ,的 非 零 值 ， 对 图 中 所 示 的 例子 i=l, 2,3, 
4。 随 着 我 们 使 不 相连 权 值 组 的 数目 g 变 大 ， 
在 协 方差 矩阵 P,; ,中 创建 了 更 多 的 0; RAB 
说 ， 和 矩阵 P,1, 变 得 更 稀 玖 。 因 而 计算 负担 变 少 
了 ， 但 状态 估计 的 数值 精确 度 下 降 了 


GP = P9 BOTT BE PR BP)? +02 | 


j=l 


a? = d? — b? (WO. vA? uc) 


#1 HGP a? 


Sy Ct) a | 
Weija = Ww nin 


+, (i) 
Wain 


@ — Ci) (DB pili 
Pa P; nl G; B; Piim 


(i) = (i) (2) 
Peis = Piin =P Qe 


DEKF 算法 的 初始 化 以 前 面 在 EKF 算法 的 表 15. 2 描述 的 方式 进行 


DEKF 的 计算 需要 假设 为 如 下 的 阶 : 
计算 复杂 度 : O(p"s + ps!) 


其 中 s 是 组 i 中 状态 的 大 小 ，s 是 总 体 状态 大 小 ; 


DEKF 的 计算 需要 可 以 比 EKF 显著 减 小 。 


pp 是 输出 节点 数 。 依 赖 于 不 相连 组 个 数 g 
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EKF 的 总 结 批注 

利用 EKF 作为 递归 神经 网 络 监督 训练 逐次 状态 估计 器 的 有 吸引 力 的 特征 是 其 基本 算法 结 
构 《 因 而 其 执行 ) 相对 简单 ， 正 如 表 15. 2 的 总 结 所 证 。 然 而 ， 它 有 如 下 两 个 实际 局 限 ， 

1. EKF 需要 线性 化 递归 神经 网 络 癌 量 测量 盟 数 b(w ,vu,)。 

2. 依赖 于 权 值 向 量 w 的 大 小 〈 即 状态 空间 的 维 数 ) ， 我 们 可 能 必须 利用 DEKF 来 减少 计算 
复杂 度 和 存储 需要 。 然 而 这 一 实际 问题 是 我 们 因此 牺牲 了 计算 精确 度 。 

我 们 可 以 通过 利用 无 导数 非 线 性 逐次 状态 估计 器 来 回避 第 一 个 局 限 ， 这 在 下 面 讨论 。 
利用 无 导数 逐次 状态 估计 器 做 神经 网 络 的 监督 训练 

在 第 14 章 中 ， 我 们 讨论 了 数值 积分 卡尔 受 滤 波 器 (Arasaratnam 和 Haykin，2009)， 其 形 
成 基于 称 为 数值 积分 规则 (Stroud，1971; Cools, 1997) 的 数值 方法 。 类 似 于 EKF， 数 值 积 
分 卡尔 曼 滤波 器 (CKF) 是 贝 叶 斯 滤波 器 的 逼近 实现 ; 然而 ， 在 理论 背景 下 ，CKF 是 逐次 状 
态 佑 计 的 最 优 非 线性 滤波 器 。CKF 具有 一 些 独 有 的 性 质 : 

1. CKF 是 比 EKF 对 贝 叶 斯 滤波 器 更 加 数值 精确 的 逼 近 器 。 它 完全 保留 了 状态 的 包含 在 观 
测 值 中 的 二 阶 信息 。 

2. CKF 是 无 导数 的 ; 因此 ， 没 有 线性 化 递归 神经 网 络 测量 矩阵 的 需要 。 

3. 最 后 但 不 限于 这 几 点 ， 数 值 积分 规则 被 用 于 逼近 时 间 更 新 积分 ， 这 包含 了 后 验 分 布 和 
所 有 其 他 高 斯 环境 下 运行 的 贝 叶 斯 滤波 器 形式 的 积分 公式 ;作为 一 个 规则 ， 积 分 比 微分 好 ， 因 
为 其 “平滑 ”人 性质。 

根据 这 些 性 质 ， 可 以 说 CKF 是 递归 神经 网 络 监督 学 习 的 有 高 度 吸 引力 的 选择 。 将 在 
15.11 节 中 描述 的 实验 包含 了 混沌 吸引 子 的 动态 重 构 ， 说 明了 CKF 比 EKF 以 及 另 一 个 称 为 中 
心 差 分 卡尔 受 滤波 器 (CDKF)2 的 无 导数 逐次 状态 估计 器 更 好 的 性 能 。Nargaard 等 (2000) 
的 CDKF， 通 过 用 基于 Stirling 公式 的 展开 来 代替 权 值 向 量 当 前 估计 附近 非 线性 测量 方程 的 
Taylor 级 数 展开 来 推导 ， 在 指定 区 间 上 插 人 分 析 函 数 。 在 一 维 情况 下 ， 可 通过 相应 地 符 换 
Taylor 展开 的 一 阶 和 二 阶 偏 导数 为 一 阶 和 二 阶 中 心 差分 来 得 到 Stirling 公式 ”。 然 后 ,一 旦 测 
量 方程 的 逼近 线性 化 在 多 维 设置 下 推导 ，CDKE 算法 遵循 卡尔 曼 滤 波 器 理论 。 原 始 的 CDKF 
算法 在 Norgaard & (2000) 中 描述 ， 采 用 方 根 滤 波 来 提高 数值 精确 度 ; 这 一 过 程 在 第 14 童 卡 
尔 曼 滤波 的 上 下 文中 描述 过 。 


15.11 计算 机 实验 : Mackay-Glass 吸引 子 的 动态 重 构 


Mackey-Glass 吸引 子 是 Mackey and Glass(1977) 在 模型 化 人 体 血 液 细 胞 动态 构成 时 首先 
形成 的 。 它 通过 下 面 单 一 的 连续 时 间 微 分 方程 来 描述 : 


d AX iar 
15. 66 
ae ba a ace 《 ) 


其 中 上 记 连 续 时 间 ， 系 数 < 一 0.2 和 4 二 0. 1， 时 间 延 迟 At 一 30。 正 式 意义 上 Mackey-Glass 吸引 
子 具 有 无 限 多 的 自由 度 ， 因 为 我 们 需要 连续 时 间 区 间 上 的 函数 z(t) 的 初始 值 。 然 而 ， 它 行为 
上 像 是 具有 有 限 维 数 的 奇异 吸引 子 。 

为 了 数值 上 解 式 (15. 66) ， 我 们 利用 四 阶 Runge-Kutta 方法 (Press 等 ，1988)，6s 的 取样 
周期 ， 初 始 条 件 zx; 二 0.9，0 志 n 志 At， 其 中 如 通常 一 样 ，n 记 离 散 时 间 。 我 们 因此 获得 长 度 
1000 的 时 间 序 列 ， 前 一 半 用 于 训练 ， 剩 下 的 用 于 测试 。 给 定 混 沌 吸引 子 ， 我 们 回顾 第 13 章 ， 
下 一 个 数据 样本 zx+: 能 由 恰当 选择 的 时 间 序列 ie se en a 9Xn—[d,—2]r steti? 来 预测 9 其 中 dg 
和 工分 别称 为 嵌入 维 数 (embedding dimension) 和 网 入 延迟 (embedding delay). Xf FE yi 
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Mackey-Glass Z, de Mr 分 别 选 为 7 和 1。 

递归 多 层 感知 器 (RMLP) 被 证 明了 在 学 习 时 间 相 关 信 号 时 是 数值 鲁 棒 的 。 对 这 个 实验 ， 
我 们 执行 一 个 具有 ?7 个 输入 〈 表 示 观 测 时 间 序 列 的 嵌入 ) 1 个 输出 和 一 个 具有 5 个 神经 元 的 目 
循环 隐藏 层 。 因 此 ，RMLP 具有 总 共 71 个 突 触 权 值 〈 包 合 了 偏 置 参数 )。 输 出 神经 元 利用 线性 
激活 函数 ， 所 有 的 隐藏 神经 元 利用 双 曲 正切 关 数 : 

olv) = tanh(v) 

三 个 算法 的 方 根 方案 被 用 来 训练 RMLP: PRERSRRE, PLŽ FRR. A 
及 数值 积分 卡尔 曼 滤 波 器 。 为 了 展开 神经 网 络 的 递归 循环 ， 我 们 使 用 切断 深度 h 二 1， 对 这 一 
实验 是 充分 的 。 而 且 ， 对 EKF 算法 ， 我 们 使 用 反 向 传播 算法 来 计算 非 线 性 测量 函数 b, 的 偏 叶 
数 ， 使 用 15.7 PRE. 

对 所 有 三 个 算法 ， 每 次 运行 使 用 10 个 回合 来 训练 RMLP。 每 个 回合 从 包含 107 个 时 间 步 
的 长 子 序 列 中 获得 ， 从 随机 选择 点 开始 。 更 精确 地 说 ， 每 个 回合 由 100 个 样本 组 成 ， 是 通过 一 
个 长 度 为 8 的 窗口 在 子 序列 上 滑动 而 得 的 。RMLP 的 权 值 被 初始 化 为 0 -均值 高 斯 分 布 ， 其 对 
角 协 方差 矩阵 是 10- XL, KPL 是 *Xs 单位 矩阵 。 

为 了 以 公平 方式 比较 CKF 训练 的 RMLP 和 CDKF, EKF 训练 的 RMLP， 我 们 做 了 50 次 
独立 训练 。 为 了 测量 从 500 个 时 间 索 引 开始 的 100 个 时 间 步 预测 的 性 能 ， 我 们 使 用 总 体 平均 累 
积 绝 对 误差 ， 由 下 式 定 义 | 


50 n 
=> ad åP ls n= 1,2,100 
r=] i=l 


其 中 dp BN i 对 第 > 次 运行 的 期 望 啊 应 ， 25 
ad? 是 在 RMLP 的 输出 端 计 算得 到 的 估计 。 
长 期 累积 预测 误差 是 随时 间 ”而 增长 的 函数 。 20 
如 已 经 指出 的 那样 ， 在 这 个 实验 中 使 用 
T IRR ZAA EEA: 
。 扩展 卡尔 曼 滤波 船 CEKFP) 
。 中 心 差分 卡尔 曼 滤 波 事 (CDKF) 
。 数值 积分 卡尔 肥 滤波 器 (CKF) 
实验 结果 在 图 15. 16 中 给 出 ， 其 中 画 出 
了 动态 重 构 的 总 体 平均 累积 绝对 误差 对 动态 0 k= 
重 构 中 使 用 的 预测 时 间 步 的 图 形 。 正 如 期 望 9 29 A a i 
的 那样 ， 实 验 结 果 为 CKF 和 CDKF, EKF 


图 15. 16 Mackey-Glass 吸引 子 动态 重 构 自 主 巴 测 
ee 性 能 并 提高 了 计算 精度 提供 阶段 中 总 体 平均 累积 绝对 误差 曲线 


15.12 Aiwa 


递归 神经 网 络 〈 如 RMLP) 的 一 个 有 趣 的 性 质 是 在 网 络 以 监督 方式 训练 后 观测 到 的 自 适 应 
行为 的 显露 * 。 这 一 现象 的 出 现 无 视 网 络 突 触 权 值 已 经 固定 的 事实 。 这 一 自 适 应 行为 可 以 追 湖 
到 如 下 的 基本 定理 (Lo and Yu，1995b): 

考虑 在 具有 相对 小 的 统计 行为 变化 的 随机 环境 中 的 递归 神经 网 络 。 如 果 环 境 的 内 在 概率 分 
布 是 通过 提供 给 网 络 的 监督 训练 样本 完全 表示 的 ， 这 一 网 络 可 能 自 适应 到 相对 小 的 环境 的 统计 
变化 ， 不 需要 对 网 络 的 突 触 权 值 做 更 多 在 线 修正 。 


累积 绝对 误差 
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这 一 基本 定理 仅 对 递归 网 络 有 效 。 我 们 这 样 说 是 因为 递归 网 络 的 动态 状态 实际 上 是 作为 
“ 短 时 记忆 ”， 包 含 了 网 络 所 在 用 于 自 适 应 的 不 确定 环境 的 估计 或 统计 。 

这 一 自 适 应 行为 在 文献 中 称呼 不 同 。 在 Lo (2001) 中 ， 它 被 称 为 适应 学 习 (accommoda- 
tive learning) 。 在 同一 年 发 表 的 男 一 个 论文 中 (Younger 等 ，2001) ， 它 被 称 为 元 -学 习 (meta 
learning)， 意 味 着 “学 习 如 何 去 学 习 ”。 从 此 ， 我 们 将 称 这 种 自 适应 行为 “元 -学 习 ”。 

不 管 这 个 自 适应 行为 是 如 何 称 呼 ， 并 不 能 期 望 它 和 真正 的 上 自 适 应 神经 网 络 工作 得 一 样 有 
效 ， 此 时 如 果 环 境 表现 出 大 的 统计 变化 将 提供 目 主 在 线 权 值 调整 。 这 一 观测 在 Lo(t2001〉 中 通 
过 实验 证 实 ， 此 时 在 使 用 元 -学 习 的 递 妇 神经 网 络 和 具有 长 时 和 短 时 记忆 的 自 适 应 神经 网 络 之 
间 进 行 了 性 能 比较 ; 比较 评估 是 在 系统 辨识 的 背景 下 完成 的 。 

无 论 如 何 ， 递 归 神 经 网 络 的 元 -学 习 能 力 可 看 成 是 控制 和 信号 处 理应 用 中 期 望 的 性 质 ， 尤 
其 是 在 突 触 权 值 的 在 线 调 整 不 是 实际 可 行 或 者 完成 这 一 工作 代价 太 高 的 时 候 。 

目 适 应 评价 

对 感 兴趣 的 应 用 来 说 如 果 递 归 神 经 网 络 的 监督 训练 不 能 得 到 期 望 响应 ， 已 有 的 非 监 督 训 练 
方法 不 能 足够 快 地 收 伍 ， 则 强化 学 习 “【〈 即 逼近 动态 规划 ) 可 能 是 仅 有 的 可 用 选择 。 从 第 12 章 ， 
我 们 回顾 逼近 动态 规划 ， 一 个 智能 体 〈 即 学 习 系 统 ) 需要 从 其 所 在 的 环境 仅 对 智能 体 采 取 的 行 
动 有 响应 。 基 本 上 ， 在 智能 体 和 其 环境 间 的 实时 交流 是 我 们 需要 构造 短 时 记忆 以 允许 递归 神经 
网 络 的 内 部 状态 自 适 应 到 环境 的 统计 变化 。 

递归 神经 网 络 的 突 触 权 值 固定 后 ， 内 部 状态 能 够 自 适 应 的 唯一 途径 是 通过 作用 于 网 络 内 部 
递归 节点 激活 上 的 调整 ， 该 激活 由 式 (15. 60) 测 量 方程 中 的 向 量 v, 来 记 。 因 此 ， 与 作用 于 隐藏 
权 值 向 量 w, 的 监督 调整 不 同 ， 对 向 量 w 的 调整 是 直接 作用 于 式 (15. 60) 的 测量 方程 上 的 。 

图 15. 17 的 块 状 图 画 出 了 围绕 固定 权 值 递归 神经 网 络 建立 的 方案 ， 此 时 递归 市 点 激活 能 实 
时 自 适 应 。 具 体 来 说 ， 我 们 具有 自 适 应 评价 (adaptive critic) ， 它 接受 两 个 输入 ， 一 个 是 从 网 
络 而 来 ， 另 一 个 是 从 响应 于 网 络 采取 的 相关 行动 〈 如 智能 体 ) 的 环境 而 来 。 作 为 这 两 个 输入 的 
响应 ， 自 适应 评价 计算 网 络 内 部 递归 节点 行为 的 合适 调整 。 

作为 总 结 ， 我 们 可 以 说 通过 使 用 自 适 应 评价 ， 递 归 神 经 网 络 装备 有 下 面 两 种 形式 的 记忆 : 

1. 长 时 记忆 ， 它 是 网 络 自身 通过 监督 训练 而 取得 ， 其 结果 是 固定 权 值 集 。 

2. 短 时 记忆 ， 它 使 得 网 络 能 够 自 适应 其 内 部 状态 〈 即 递归 节点 激活 ) 于 环境 的 统计 变化 ， 
不 影响 固定 权 值 。 

值得 注意 的 是 通过 和 环境 的 连续 交流 ， 短 时 记忆 能 发 展 成 无 模型 设置 (model-free set- 
ting), XÆ Prokhorov(2007) 中 描述 。 






To: BEE D pore 
ai 激活 v, 的 递归 神经 me 
网 络 
递归 节点 


激活 v, 的 控制 | 


[单位 时 间 
延迟 


从 环境 而 来 
的 响应 


图 15.17 MAMAS (假设 具有 单一 输出 ) 中 使 用 自 适应 评价 来 控制 递归 节点 激活 的 块 状 图 
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15.13 ”实例 学 习 : 应 用 于 神经 控制 的 模型 参考 


在 本 章 的 最 后 一 个 主题 中 ， 我 们 讨论 一 个 实例 学 习 ， 它 不 仅 非 常 适合 本 章 ， 而 且 将 本 书 前 
面 章 中 讨论 过 的 几 个 主题 放 到 了 一 起 。 

具体 而 言 ， 我 们 讨论 递归 神经 网 络 在 反馈 控制 系统 设计 中 的 重要 应 用 ， 此 时 设备 (plant) 
的 状态 和 强加 的 控制 非 线 性 耦合 。 系 统 的 设计 因为 其 他 因素 而 变 得 更 加 复杂 ， 如 未 测量 的 随机 
分 布 的 存在 、 不 唯一 设备 逆 的 可 能 性 、 设 备 状 态 不 可 观测 等 。 

适合 使 用 递归 神经 网 络 的 控制 策略 是 模型 参考 控制 (model-reference control) (Narendra 
and Annaswamy, 1989; Puskorius and Feldkamp, 2001; Prokhorov，2006)。 如 图 15.18 所 
示 ， 模 型 参考 控制 系统 包括 五 个 郴 数 分 量 : 

lL 设备 ， 它 被 控制 以 补偿 设备 动态 的 改变 。 作 为 控制 信号 和 其 自身 参数 问 量 的 函数 的 
设备 输出 随时 间 而 演化 ， 其 中 9 中 的 时 间 参 数 上 远 远 不 如 时 间 索 引 n 改变 的 频率 快 。 例 如 ， 人 6 
可 以 是 分 段 常 数 的 ,，& 变化 时 它 从 一 个 常数 层 转 换 到 为 一 个 。 

2. 神经 控制 器 ， 它 以 由 递归 多 层 感 知 器 为 例 的 递归 网 络 组 成 。 它 提供 作用 在 设备 输入 上 
的 控制 信号 。 这 一 信号 作为 参考 人 信号、 反馈 信 号 的 函数 变化 ， 控 制 器 的 权 值 回 量 记 为 w。 

3. 模型 参考 ， 它 被 假设 为 稳定 的 。 模 型 参考 提供 响应 于 参考 信号 的 期 望 信和 号 作为 输入 。 

4. 比较 器 ， 由 求 和 单元 表示 ， 它 比较 设备 输出 和 模型 参考 的 期 望 响应 来 产生 误差 信号。 

5. 单位 时 间 延 迟 模块 ， 表 示 为 2 'I， 它 通过 配 比 设备 输出 向 量 元 素 和 参考 信号 元 素来 关 
闭 围绕 设备 的 反馈 循环 ; 事实 上 ， 外 部 递归 网 络 是 通过 反馈 循环 来 实现 的 。 


参考 信号 





图 15.18 模型 -参考 自 适应 系统 


由 这 一 描述 ， 很 明显 设备 输出 是 通过 控制 信号 和 设备 自身 参数 向 量 9 的 直接 函数 的 神经 
控制 器 权 值 向 量 w 的 非 直 接 洱 数 。 我 们 因此 可 以 将 设备 输出 表示 为 yp Cn,w,8)， 其 中 下 标 i 
表示 设备 操作 的 特别 样 例 。 设 备 输出 显 式 依赖 于 时 间 n 是 包含 在 强调 设备 非 稳定 行为 上 的 。 相 
应 地 ， 令 yi,, (n)〉 记 模型 参考 对 同一 样 例 的 输出 。 参 考 信 号 对 模型 参考 自 适应 控制 系统 的 两 个 
前 向 路 径 是 共同 的 ; 我 们 在 设备 输出 或 模型 参考 输出 中 不 包含 对 参考 信号 的 依赖 来 简化 问题 。 

误差 信号 通过 对 每 个 样 例 i 的 模型 参考 输出 和 设备 输出 之 间 的 差 来 定义 。 因 此 形成 均 方 
误差 

Jw = DTD) yD — yup nw | (15. 67) 


其 中 内 部 的 求 和 是 在 训练 神经 控制 器 的 整个 样 例 集 合 上 进行 的 ， 外 面 的 求 和 是 在 整个 训练 过 程 
IKa KT 上 取 的 。 为 了 给 出 对 于 参数 改变 和 外 部 扰动 〈 后 者 在 图 15. 18 中 给 出 ) 鲁 棒 的 神经 控 
制 器 的 设计 ， 通 过 这 样 的 方式 来 调整 神经 控制 器 的 权 值 向 量 w， 即 均 方 误差 J(w,8) 和 其 最 
大 值 在 设备 的 参数 向 量 @ 的 所 有 可 能 值 上 衰减 (‘Prokhorov，2006)。 这 一 最 优 性 使 得 设备 输 
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出 追踪 模型 参考 输出 ， 

在 图 15. 18 中 的 模型 参考 控制 系统 标 为 “设备 ”的 块 具 有 双重 意义 ,依赖 于 从 神经 控制 器 
的 角度 是 如 何 看 的 : 

。 一 种 意思 是 作为 设备 被 控制 的 实际 系统 。 

。 为 一 个 意思 是 那个 实际 系统 的 模型 。 

相应 地 ， 我 们 可 以 利用 直接 控制 (direct control) 来 补偿 设备 动态 中 的 不 确定 性 ， 此 时 实 
际 设 备 被 用 于 控制 系统 ， 或 者 采用 间接 控制 (indirect control)， 此 时 设备 模型 被 用 于 控制 系统 
(Adetona 等 ，2000) 。 

在 多 种 情形 下 ， 我 们 发 现 设 备 基 于 物理 的 模型 《〈《 即 被 控制 的 实际 系统 ) 是 适当 的 ; 在 工业 
中 这 样 的 模型 的 有 效 性 是 常见 的 ， 这 是 对 时 间 以 及 努力 的 大 量 投资 的 结果 上 知道 的 。 作 为 替 
代 ， 我 们 可 以 利用 在 导言 中 讨论 的 系统 辨识 原则 来 建立 设备 的 基于 神经 网 络 的 模型 。 然 而 典型 
地 ， 我 们 发 现下 面 情 况 (Prokhorov，2006): 

1. 基于 物理 的 模型 比 基 于 神经 网 络 的 模型 更 精确 。 

2. 基于 物理 的 模型 不 包 插 专用 可 微 元 素 。 
Prokhorov(2006) 报告 的 用 于 训练 神经 控制 器 的 方法 是 方 根 状态 估计 算法 的 修正 版 本 ， 方 根 状 
态 估计 算法 是 由 Norgaard 等 〈2000) 提出 。 如 前 所 述 ， 这 一 算法 合适 称 为 中 心 差分 卡尔 曼 滤 
波 器 (CDKF)， 

在 Prokhorov(2006) 中 给 出 的 实验 结果 不 仅 通过 非 线性 和 逐次 状态 估计 框架 验证 神经 控制 
器 的 训练 ， 也 描述 了 由 无 导数 CDKF 算法 所 获得 的 比 依赖 于 导数 的 EKF 算法 更 好 的 精度 。 


15.14 “小结 和 讨论 


递归 网 络 模型 

本 章 讨 论 涉 及 应 用 全 局 反馈 到 静态 〈 无 记忆 ) 多 层 感知 器 的 递归 网 络 。 反 馈 的 应 用 使 得 神 
经 网 络 获得 状态 表示 ， 使 得 它们 成 为 信号 处 理 和 控制 中 各 种 应 用 的 合适 工具 。 属 于 有 全 局 反馈 
的 递归 网 络 类 型 的 四 个 主要 网 络 结构 如 下 : 

。 使 用 从 输出 层 反 馈 到 输入 层 的 具有 外 部 输入 的 非 线性 自 回归 NARX 网 络 。 

© 具有 从 隐藏 层 到 输入 层 反 馈 的 完全 连接 递归 网 络 。 

。 有 多 于 一 个 隐藏 层 的 递归 多 层 感 知 器 ， 其 中 每 个 计算 层 输 出 反馈 到 它 目 己 的 输入 。 

。 使 用 二 阶 神经 元 的 二 阶 递归 网 络 。 

在 所 有 这 些 递归 网 络 中 ， 反 馈 通 过 抽 头 延迟 线 记忆 。 

前 三 个 递归 网 络 可 以 使 用 状态 空间 框架 研究 其 动态 行为 。 这 个 根植 于 现代 控制 论 的 方法 提 
供 一 个 研究 非 线 性 动态 递归 网 络 的 有 力 工 具 。 
递归 神经 网 络 的 性 质 

下 面 是 递归 神经 网 络 的 一 些 重要 性 质 : 

1. 它们 是 非 线性 动态 系统 的 通用 逼近 器 ， 如 果 它 们 具有 充分 多 的 隐藏 神经 元 的 话 。 

2. 它们 是 局 部 可 控制 和 局 部 可 观测 的 ， 如 果 它 们 的 线性 方案 满足 围绕 平衡 点 的 一 定 条 件 
的 话 。 ; 

3. 给 定 任意 的 有 限 状 态 机 器 ， 我 们 能 够 建立 作为 黑 盒 机 器 的 递归 神经 网 络 ， 其 行为 像 有 
BLAIR AS LAE o 

4. 递归 神经 网 络 表现 出 元 -学 习 〈 即 学 习 如 何 学 习 )〉 的 能 力 。 
事实 上 ， 正 是 这 些 性 质 使 得 递归 神经 网 络 适合 于 计算 、 控 制 、 信 号 处 理 等 的 应 用 。 
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基于 梯度 的 学 习 算 法 

在 本 章 中 ， 我 们 讨论 了 两 种 基于 监督 学 习 算 法 的 训练 递归 网 络 的 算法 : 通过 时 间 的 反 
向 传播 (BPTT) ， 实 时 递归 学 习 (RTRL)。 这 两 者 是 建立 在 梯度 基础 上 的 ， 这 使 其 执行 
时 计算 简单 。BPTT 更 适合 于 离线 学 习 ， 而 由 定义 RTRL 是 设计 用 于 在 线 学 习 的 。 然 而 ， 
这 两 个 算法 的 实际 局 限 是 消失 梯度 问题 ， 这 是 因为 它们 不 能 使 用 训练 数据 中 的 二 阶 信息 
而 导致 的 。 
基于 非 线 性 逐次 状态 估计 的 监督 学 习 算 法 

克服 消失 梯度 问题 的 一 个 有 效 的 方法 是 利用 非 线 性 逐次 状态 估计 来 为 递归 多 层 感 知 兹 提供 
监督 训练 。 这 里 我 们 具有 两 个 可 用 的 选择 : 

1. 因为 其 计算 简单 性 ， 我 们 可 以 使 用 扩展 卡尔 曼 滤 波 器 (EKF)。 然 而 ,我 们 必须 利用 
BPTT 或 RTRL 算法 来 为 属于 递归 神经 网 络 的 测量 模型 提供 线性 化 。 

2. 我 们 可 以 利用 无 导数 非 线性 逐次 状态 估计 ， 以 第 14 章 描 述 的 数值 积分 卡尔 曼 滤 波峰 
(CKF) 和 本 章 简单 介绍 的 中 心 差分 卡尔 曼 滤波 器 (CDKF) 为 例 。 这 样 ， 我 们 不 仅 拓 宽 了 这 
一 新 方法 对 监督 学 习 的 应 用 ， 也 提高 了 数值 精度 。 然 而 ， 要 付出 的 代价 是 增加 计算 需求 。 

在 这 三 个 非 线性 滤波 器 中 ，CKEF 的 罕 出 性 不 仅 体现 在 其 最 通 近 于 贝 叶 斯 滤波 器 〈 至 少 从 
概念 意义 上 是 最 优 的 ) 也 因为 其 在 三 者 中 是 最 强大 的 。 假设 高 斯 性 ，CKEF 的 构造 受 卡尔 曼 渡 
波 理论 (如 革新 过 程 )》 的 影响 ， 如 第 14 章 所 讨论 的 那样 。 

不 论 怎样 ， 监 督学 习 的 这 一 新 方法 是 好 的 ， 如 图 15. 14 的 EKF 块 状 图 所 证 明 。 更 重要 的 
是 ， 这 一 过 程 可 以 应 用 于 递归 神经 网 络 和 其 他 的 神经 网 络 (如 多 层 感知 器 )。 而 且 ， 因 为 这 一 
通用 应 用 性 ， 我 们 可 以 将 这 一 类 监督 学 习 的 非 线 性 逐次 状态 估计 算法 (包括 EKF, CDKF, 
CKF) 作为 启动 技术 (enabling technology)， 使 其 能 够 解决 困难 的 信号 处 理 和 控制 问题 ， 尤 其 
是 大 规模 学 习 问 题 中 二 阶 信息 的 使 用 几乎 是 “必须 ”的 。 

从 理论 上 ， 具 有 全 局 反馈 的 递归 网 络 (例如 ， 用 EKF 算法 训练 的 递归 多 层 感知 器 ) 能 通 
过 把 训练 样本 中 获得 的 知识 存储 到 权 值 固定 集中 学 习 非 稳定 环境 下 的 内 在 动力 学 。 更 重要 的 
是 ， 网 络 能 够 追踪 环境 的 统计 变化 ， 如 果 下 面 的 两 个 条 件 得 到 满足 ， 

。 递归 网 络 不 发 生 欠 适应 Cunderfitting) 或 过 适应 (overfitting)。 

。 训练 样本 能 表示 环境 的 小 的 统计 变化 。 

多 路 训练 

在 图 15. 14 中 描述 的 递归 网 络 监督 训练 方法 可 能 从 称 为 多 路 训练 〈multistream training) 
的 过 程 中 获 益 。 这 一 过 程 应 用 于 这 样 的 情形 : 通过 利用 多 样本 模式 的 优点 坐标 权 值 更 新 〈co- 
ordinated weight update) 是 有 利 的 CPuskorius and Feldamp, 2001). 

在 神经 网 络 的 监督 训练 中 ， 依 赖 于 输入 -目标 响应 对 训练 序列 的 性 质 可 能 出 现 两 种 方案 : 

1. 同 种 序列 (homogeneous sequences)， 此 时 通过 训练 数据 的 一 个 或 多 个 通过 可 以 很 好 地 
产生 满意 结果 。 

2. 异种 序列 Cheterogenous sequences)， 此 时 ,例如 ， 可 能 在 输入 -目标 响应 对 中 快速 变 
化 区 域 之 后 紧 随 着 慢 速 变化 区 域 。 | 

在 后 一 种 方案 下 ， 存 在 着 标准 训练 过 程 中 网 络 权 值 为 了 当前 出 现 的 训练 数据 而 不 适当 更 新 
的 倾 血 ， 我 们 称 之 为 新 近 效 应 (recency effect), 对 于 前 馈 网 络 ， 有 效 的 解决 办 法 是 打 乱 
(shuffle) 提供 给 神经 网 络 的 训练 数据 的 顺序 ， 或 者 利用 训练 的 批量 形式 ;这 两 种 方法 都 在 第 
4 音 中 讨论 过 。 对 递归 神经 网 络 ， 打 乱 数 据 顺 序 的 直接 模型 是 随机 选择 子 序列 ;这 样 做 具有 仅 
对 子 序列 最 后 的 输入 -目标 响应 对 进行 权 值 更 新 的 效果 。 例 如 ， 在 利用 EKF 算法 的 训练 过 程 的 
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情形 ， 是 完全 的 批量 更 新 。 它 通过 完整 的 训练 样本 运行 递归 网 络 ， 对 每 一 个 输入 -目标 响应 对 
计算 必要 的 偏 导 数 ， 然 后 基于 整个 估计 误差 集 更 新 网 络 权 值 。 

多 路 训练 过 程 通过 打 乱 〈( 即 随机 选择 子 序列 ) 和 批量 更 新 的 组 合 应 用 来 克服 新 近 效 应 。 特 
别 地 ， 多 路 训练 基于 这 样 的 原则 : 每 一 次 权 值 更 新 都 代表 着 联 立方 式 下 多 个 输入 -目标 响应 对 
的 信息 内 容 。 | 

作为 最 后 的 备注 : 多 路 训练 不 仅 在 使 用 EKF 算法 时 是 可 用 的 ， 也 在 使 用 无 导数 非 线性 逐 
次 状态 算法 (如 CDKF 和 CKF) 时 可 用 。 

最 终结 束 备 注 : 大 规模 学 习 问 题 

作为 本 章 的 最 后 一 个 小 节 ， 而 本 章 也 是 全 书 的 最 后 一 章 ， 本 节 将 讨论 大 规模 学 习 问 题 。 特 
别 地 ， 在 前 面 的 三 个 章节 中 也 以 一 定 篇 幅 讨论 过 这 一 问题 : 

。 在 关于 多 层 感知 器 的 第 4 章 中 ， 学 习 了 大 规模 学 习 问 题 和 小 规模 学 习 问 题 的 比较 。 

。 在 关于 正则 理论 的 第 7 E+, 我们 利用 可 微 流 形 来 构造 能 够 开发 包含 在 标注 训练 样本 

和 未 标注 样本 中 信息 的 半 监 督学 习 策 略 。 
。 然后 再 次 在 动态 规划 的 第 12 章 中 ， 维 数 灾 问 题 在 处 理 大 规模 动态 环境 时 成 为 严重 关心 
的 问题 。 
在 模式 分 类 和 非 线 性 回归 监督 学 习 问 题 的 背景 下 ， 处 理 这 些 问 题 的 过 程 是 容易 理解 的 ， 这 由 本 
书 中 给 出 的 内 容 得 到 验证 。 另 一 方面 ， 能 够 正当 地 宣称 大 规模 学 习 问 题 的 研究 还 处 在 早期 
阶段 。 

事实 上 ， 我 们 可 以 将 大 规模 学 习 问 题 看 成 是 关于 学 习 的 未 来 〈future of learning) 的 视窗 。 
这 一 视窗 将 我 们 直接 带 到 实际 世界 。 相 应 地 ， 我 们 可 以 办 别 在 处 理 大 规模 学 习 问 题 时 的 四 个 具 
体 阶 段 : 

1. 用 于 训练 数据 源 的 详细 清单 的 开发 。 这 第 一 阶段 是 非常 重要 的 ， 因 为 毕竟 训练 数据 提 
供 了 属于 这 一 问题 的 实际 世界 和 被 研究 来 解 这 一 问题 的 学 习 机 之 间 的 联系 。 这 一 训练 数据 源 的 
清单 可 能 包括 : 

。 高 质量 有 标签 数据 。 

。 不 是 那么 高 质量 的 有 标签 数据 ，。 

。 大 量 无 标签 数据 。 

给 定 这 样 训练 数据 的 混合 ， 挑 战 在 于 如 何 构造 值得 追求 的 训练 策略 的 不 同方 案 ， 在 计算 次 
源 有 限 的 情况 下 实现 。 

2. 相应 于 生成 训练 数据 的 环境 的 模型 化 。 在 第 二 个 阶段 ， 挑 战 在 于 构成 网 络 模 型 ， 它 具 
有 是 够 多 的 自由 度 并 且 是 正确 的 。 在 构造 中 的 目标 是 捕获 相应 于 数据 生成 的 环境 的 内 在 统计 物 
BEE (性 质 )。 这 一 问题 的 实质 是 ， 除 非 这 一 问题 被 正确 解决 ， 否 则 将 不 可 避免 地 在 数据 生 
成 的 物理 现实 和 提案 的 网 络 模 型 理论 基础 之 间 存 在 不 匹配 。' 如 果 模 型 的 不 匹配 很 严重 的 话 ， 此 
后 无 论 怎么 做 也 不 能 治愈 模型 的 缺陷 。 

3. 用 于 估计 网 络 模 型 可 调整 参数 的 算法 选择 。 第 三 个 阶段 的 挑战 性 在 于 我 们 必须 选择 以 
计算 有 效 的 方式 良好 适合 于 估计 模型 未 知 参数 的 算法 。 更 精确 地 ， 网 络 模型 必须 具有 从 输入 到 
输出 的 充分 深度 来 有 效 地 处 理 问题 。 

4. 可 调整 参数 的 最 优 估计 。 最 后 的 挑战 是 选择 具有 可 靠 地 提取 训练 数据 信息 内 容 的 内 在 
能 力 的 优化 算法 。 典 型 地 ， 二 阶 信息 被 认为 是 适合 的 。 最 重要 的 是 ， 优 化 算法 必须 是 计算 效率 
高 的 。 在 这 一 背景 下 ， 有 两 个 潜在 的 候选 者 : 

。 非 线 性 逐次 估计 算法 ， 以 数值 积分 卡尔 曼 滤 波 嘎 为 例 。 
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。 二 阶 优化 算法 ， 以 高 斯 -牛顿 和 Levenberg-Marquardt 算法 的 在 线 方案 为 例 ， 当 估计 精 
度 被 合理 地 良好 保持 时 ， 找 到 了 免除 精确 计算 Hessian 矩阵 的 方法 。 
我 们 以 这 样 的 说 法 来 结束 本 书 : 在 解 实际 世界 大 规模 学 习 问 题 时 ， 认 真 地 对 待 这 里 摘 述 的 
四 个 阶段 我 们 才能 确信 实现 成 功 解 。 


注释 和 参考 文献 


1. 关于 其 他 递归 网 络 结构 ， 参 考 Jordan(1986), Back and Tsoi(1991), Frasconi 等 (1992), 

2. NARX 模型 包括 一 类 重要 的 非 线性 离散 时 间 系 统 (Leontaritis and Billings，1985) 。 涉 及 神经 网 络 这 方面 的 
讨论 可 以 参考 Chen % (1990), Narendra and Parthasarathy (1990), Lin 等 (1996) 和 Sieglemann 等 
(1997). 

己 经 证 实 NARX 模型 十 分 适合 对 非 线性 系统 进行 建 模 ， 如 热 交 换 器 〈Chen 等 ，1990)， 污 水 处 理 设 备 
(Su and McAvoy, 1991; Su 等 ，1992) ， 用 于 石油 提炼 的 催化 更 新 系统 (Su 等 ，1992)， 在 生物 系统 中 的 
多 肢 移动 的 非 线 性 振东 (Venkataraman, 1994) 和 语法 推理 〈Giles and Horne, 1994). 

NARX 模型 也 指 非 线 性 自 回归 滑动 平均 (NARMA) 模型 ， 其 中 “滑动 平均 ”是 对 于 输 和 人 而 言 。 

3. 递归 多 层 感知 器 是 延 时 递归 神经 网 络 “TLRNN)》 的 特例 。 这 一 递归 网 络 的 一 般 类 允许 使 用 神经 网 络 节 点 加 
连接 的 任意 模式 ; 另 一 方面 ， 递 归 多 层 感知 器 具有 连接 的 层 模 式 。TLRNN 提供 下 面 重 要 的 特性 (Lo, 
1993): 

CD 它们 包含 传统 的 结构 如 有 限时 宽 脉 冲 响 应 CIR) . 
GD 它们 具有 解释 非 线 性 动态 系统 中 强 隐 藏 状态 的 内 在 能 力 。 
iii) 它们 是 非 线性 动态 系统 的 通用 遥 近 。 

4. Omlin and Giles(1996) 指出 ， 用 二 阶 递归 网 络 ， 任 何 有 限 状态 自动 机 可 以 映射 到 这 样 一 种 阅 络 ， 且 可 以 保 
证 有 限 长 度 的 时 序 序列 的 正确 分 类 。 

5. 可 控 性 和 可 观测 性 的 严格 处 理 可 以 参考 Zadeh and Desoer(1963) . Kailath(1980). Sontag(1990)., 

6. 有 关 神 经 网 络 和 自动 机 〈 实 际 上 是 串 行 机 器 -自动 机 的 实现 ) 方面 的 最 旱 工 作 ， 即 第 一 篇 关于 有 限 状 态 自 动 
机 、 人 工 智 能 和 递归 神经 网 络 方面 的 论文 ， 是 McCulloch and Pitts(1943) 的 经 典 的 论文 。 弟 归 网 络 RA 
瞬时 反馈 ) 是 这 篇 论文 的 第 二 部 分 ， 这 在 Kleene(1956) 被 解释 为 一 个 有 限 状 态 自动 机 。Kleene 的 论文 出 
现在 由 Shannon 和 McCarthy 编辑 的 《自动 机 研究 》(Automata Studies) 一 书 中 (这 本 惊 世 之 作 的 作者 还 包 
括 Moore、Minsky、von Neumann、Uttley、McCarthy 和 Shannon 等 人 )。 有 时候，Kleene 的 论文 被 作为 有 
限 状态 机 器 方面 的 第 一 篇 文章 引用 OC Perrin, 1990), Minsky (1967) 在 他 的 《计算 | 有 限 和 无 限 机 器 》 
(Computation; Finite and Infinite Machines) 一 书 中 讨论 自动 机 和 神经 网 络 。 

所 有 关于 自动 机 和 神经 网 络 方面 的 早期 工作 主要 考虑 怎样 将 二 者 结合 在 一 起 ， 即 如 何 建造 和 设计 旦 动 
机 到 神经 网 络 中 去 。 因 为 大 多 数 自动 机 〈 当 被 实现 为 串 行 机 器 的 时 候 ) 需要 反馈 ， 神 经 网 络 必 须 为 递归 的 。 
注意 早期 的 工作 (除了 Minsky 的 ) 并 没有 明确 地 区 分 自动 机 (有 向 图 、 标 记 图 和 无 圈 图 ) MTL GE 
辑 延 时 和 反馈 延 时 ) ， 大 多 数 情况 下 仅 考 虑 有 限 状 态 自动 机 ， 而 对 于 提高 自动 机 的 层次 到 下 推 自 动机 和 图 天 
机 没有 什么 兴趣 CRT Minsky 之 外 ) 。 

在 神经 网 络 的 黑暗 时 代 过 去 之 后 ， 关 于 自动 机 和 神经 网 络 方面 的 研究 在 20 世纪 80 年 代 又 开始 了 。 这 
个 工作 可 以 大 概 分 为 下 面 三 个 大 的 领域 ，(1》〉 学 习 自 动机 ; D 自动 机 关于 知识 的 合成 、 抽取 和 提炼 ; 
(3) 表示 。 首 先 提 到 自动 机 和 神经 网 络 的 是 Jordan(1986). 

7. 使 用 McCulloch-Pitts 神经 元 的 单 层 递归 网 络 不 能 模拟 任何 有 限 状 态 的 机 (Goudreau 4%, 1994), 但 Elman 
的 简单 递归 网 络 可 以 进行 这 样 的 模拟 (Kremer, 1995), 只 有 局 部 反馈 的 递归 网 络 不 能 表示 所 有 有 限 状 态 
机 (Frasconi and Gori, 1996; Giles 等 ，1995; Kremer, 1996). 换 句 话说， 全 局 反馈 的 使 用 是 通过 神经 网 
络 模 拟 有 限 状 态 的 必要 需求 。 

8. 通过 时 间 的 反 向 传播 的 思想 ， 是 对 于 每 一 个 递归 网 络 都 可 能 建立 一 个 前 馈 网 络 ， 使 之 在 一 个 特定 的 时 间 间 
隔 内 具有 和 它 相同 的 行为 “Minsky and Papert, 1969). 通过 时 间 的 反 向 传播 首先 在 Werbos(1974) 的 博士 
论文 讨论 过 ; 也 可 以 参考 Werbos(1990) 。 这 个 算法 由 Rumelhart 等 ，(1986b) 独立 地 重新 发 现 。 通过 时 间 
的 反 向 传播 算法 的 一 个 变 体 由 Williams and Peng(1990) 所 讨论 。 对 于 算法 的 综述 和 相关 的 问题 ， 可 以 参考 
Williams and Zipser(1995), 
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9. 实时 递归 学 习 算 法 在 神经 元 网 络 文献 中 的 第 一 次 描述 是 Williams and Zipser(1989)。 其 来 源 可 以 追溯 到 


10. 


U1. 


12. 


13. 


14. 


McBride and Narendra(1965) 用 于 调任 意 动 态 系 统 参数 的 系统 辨识 的 论文 。 


Williams 和 Zipser 给 出 的 推导 是 关于 完全 递归 的 单 层 神经 网 络 。 它 已 扩展 为 更 一 般 的 结构 ; 例如 ， 参 


Æ Kechriotis 等 (1994); Puskorius and Feldkamp(1994) 。 


Schraudolph( 2002) 描述 了 随机 元 下 降 (stochastic meta-descent) (SMD) 算法 ， 其 中 提出 了 通过 迭代 逼近 
来 放弃 计算 精确 的 Hessian RRR. Ra, — SRA RES RE -m BARA MSE 
Levenberg-Marquardt 77 EA (UIE RE TTI, te BE a a re PE AE Ej 
Singhal and Wu(1989) 也 许 是 第 一 个 展示 用 扩展 卡尔 曼 滤 波 器 提高 监督 神经 元 网 络 的 映射 性 能 。 不 幸 的 
是 ， 那 里 讨论 的 训练 算法 受 限于 它 计算 的 复杂 性 。 为 克服 这 个 困难 ，Kollias and Anastassiou(1989), Shah 
and Palmieri(1990) 尝试 通过 将 全 局 问题 分 为 一 系列 子 问题 ， 每 个 子 问题 表示 一 个 单一 的 神经 元 ， 以 简化 
扩展 卡尔 曼 滤波 器 的 应 用 。 但 是 作为 一 个 辩 识 问题 的 每 一 个 神经 元 的 处 理 并 不 是 严格 地 遵守 卡尔 紧 滤 波 肯 
理论 。 还 有 ， 这 样 处 理会 导致 训练 过 程 中 的 不 稳定 行为 ,并且 可 能 得 到 比 别 的 方法 得 到 的 结果 还 差 的 解 
(Puskorius and Feldkamp, 1991), 
在 Prokhorov(2006, 2007) 和 相关 的 论文 中 ， 由 Noérgaard, Poulsen, and Ravn(2000) 而 来 的 逐次 状态 估 
计算 法 被 称 为 nprKF 算法 ， 其 中 “npr” 是 从 算法 的 三 个 作者 的 第 一 个 字母 中 取出 。 在 本 章 中 ， 我们 优先 
选择 将 这 一 算法 命名 为 中 心 差分 卡尔 曼 滤 波 器 (CDKF)， 这 是 对 这 一 算法 基础 的 更 好 描述 。 
考虑 具有 变量 z 的 函数 f(z). Of emcee 时 的 值 。 中 心 差分 定义 为 : 

fetl = fer fe 对 于 每 个 
其 中 左边 的 下 标 是 右边 两 个 下 标的 平均 。 下 面 的 表 高 阶 中 心 差 分 是 如 何 构造 的 ， 
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注意 表 中 具有 相同 下 标的 元 素 总 是 处 于 水 平 或 中 心 Centrally) EF A RITE (Wylie and Barrett, 
1982). 

以 递归 多 层 感 知 器 为 例 的 递归 神经 网 络 自 适 应 行为 的 出 现 ， 首 先 由 Lo and Yu(1995) WH. 关于 这 一 现 
象 的 更 多 参考 文献 BA Prokhorov 等 (2002) 的 综述 论文 。 


习题 


状态 空间 模型 
15.1 写 出 图 15. 3 的 Elman 简单 递归 网 络 状态 空间 模型 的 计算 公式 。 
15.2 证 实 图 15.4 的 递归 多 层 感知 器 可 以 用 状态 空间 模型 


Xl 一 £Cx, sU, ) 
Yn = g(x, »U,) 
表示 ，、 其 中 uw 表示 输入 ，y, 表示 输出 ，x, 表示 状态 , (6.9 Mee.) 表示 向 量 值 非 线性 函数 。 


15.3 一 个 动态 系统 是 否 可 能 是 可 控 的 但 不 可 观测 的 ， 而 且 反之 亦 然 ? 证 实 你 的 答案 。 
15.4 参考 15.4 节 的 局 部 可 控 性 问题 ， 证 实 


(a) 状态 x+ 是 它 过 去 值 Xy AA sh C15, 24) 的 输入 回 量 un 的 嵌 套 非 线 性 画 数 。 
Cb) xi 对 的 Jacobi 和气 阵 在 原点 求 值 等 于 式 (15. 23) 可 控 性 矩阵 ML. 。 


.5 参照 15.4 节 的 局 部 可 观测 性 问题 ， 证 明定 义 在 式 (15. 30) 中 的 观察 向 量 Yon JIRA x, 的 Jacobi 矩阵 在 原 
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点 的 求 值 等 于 式 (15. 28) 的 可 观察 抢 阵 M.. 
15.6 非 线性 动态 系统 的 系统 方程 由 
Xen 一 f(x, yu ) 
fit, Rhu BANA 的 输入 问 量 ，x 是 对 应 的 系统 状态 。 输 入 vu 在 系统 方程 中 以 非 加 性 的 方式 出 
现 。 在 本 题 中 ， 我 们 希望 重新 写 过 程 方 程 ， 合 输入 u 以 加 性 的 方式 出 现 。 这 需 写成 
Kt! 一 foe (X,) 十 us 
给 出 向 量 x Alu, 以 及 函数 fae CO 的 定义 公式 。 
15.7 图 P15.7 提出 在 神经 元 级 上 的 使 用 局 部 反馈 的 递归 网 络 模型 的 两 个 例子 。 在 图 P15. 7a 部 分 和 图 PLS. 7b 
部 分 显示 的 体系 结构 分 别称 为 局 部 激活 反馈 和 局 部 输出 反馈 (Tsoi and Back，1994)。 对 这 两 个 递归 网 
络 的 体系 结构 ， 写 出 状态 空间 模型 公式 。 评 价 它们 的 可 控 性 和 可 观察 性 。 





a) 局 部 激活 反馈 结构 b) 局 部 输出 反馈 结构 


图 P15.7 


有 人 外 部 输入 的 非 线 性 自 回归 (NARX) 模型 
15.8 考虑 图 P15.8 的 NARX 网 络 ， 如 下 : 
Ca) 构造 等 价 于 这 个 单 输 入 单 输出 递归 网 络 的 等 价 状态 空间 模型 。 
(b) 当 图 P15. 8 被 扩展 到 包含 两 个 输入 和 两 个 输出 时 重复 (a) 部 分 的 习题 。 





图 P15.8 RA q=3 个 隐藏 神经 元 的 NARX 网 络 


15.9 建立 对 应 于 图 P15. 9 中 的 完全 递归 网 络 的 NARX。 
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图 P15.9 


15.10 ”任何 状态 空间 模型 可 以 表达 成 NARX 模型 。 反 过 来 的 结果 如 何 ? 任何 的 NRAX 模型 是 否 都 可 以 表达 
成 15.2 节 形 式 的 状态 空间 模型 ? 说 明 你 的 结论 的 理由 。 

通过 时 间 的 反 向 传播 

15.11 展开 图 15. 3 的 状态 空间 模型 的 时 序 行为 。 

15.12 截断 的 BPTT(h) 算法 可 以 看 作 是 分 回合 的 BPTT 算法 的 近似 。 可 以 通过 将 分 回合 BPTT 算法 的 一 些 
方面 包括 进 BPTT(h) 来 提高 这 个 近似 程度 。 特 别 是 可 以 让 网 络 在 执行 下 一 个 BPTT 计算 前 通过 户 个 
附加 步 ， 这 里 久 <<h。 通 过 时 间 的 反 向 传播 的 混合 形式 的 重要 特征 是 下 一 个 后 向 传播 在 时 间 步 nth 之 
后 才 执 行 。 在 此 期 间 ， 网 络 过 去 输入 值 、 网 络 状态 和 期 望 的 响应 都 存储 在 一 个 缓冲 区 里 面 ,， 但 并 不 对 
它们 进行 处 理 。 在 这 个 混合 型 的 算法 中 给 出 神经 元 ; 的 局 部 梯度 的 公式 。 

实时 递归 学 习 算 法 

15.13 教师 强制 递归 网 络 在 训练 过 程 中 的 动态 以 下 面 的 方式 描述 

“ines wRIiC SM 

je wRiE€ 

Mins 如 果 i EE B-S 

其 中 是 记 当 & 是 一 个 外 部 输入 时 下 标 为 i BA. BERYG 是 一 个 神经 元 的 输出 时 下 标 i 的 集合 ， 

C 表示 可 见 的 输出 神经 元 的 集合 。 

(a) 证 明 对 这 个 格式 ， 偏 导数 ayije+liVyaBruu 由 下 式 给 出 


OW ,n Perra OW sn 

Cb) 对 于 教师 强制 递归 网 络 推导 训练 算法 。 

非 线 性 逐次 状态 估计 器 

15.14 描述 DEKF 算法 如 何 训练 图 15. 3 所 示 的 简单 递归 网 络 。 对 于 这 个 训练 也 可 用 BPTT 算法 。 

15.15 表 15.2 给 出 EKF 算 法 用 于 RMLP 监督 训练 的 总 结 。 利 用 第 14 章 描述 的 方 根 滤波 理论 来 构造 这 一 算 
法 的 方 根 修正 。 

15.16 在 第 14 章 描 述 了 取样 -重要 性 -再 取样 〈SIR) 粒子 滤波 器 。 这 一 滤波 器 是 无 导数 的 ; 因此 可 以 和 尝试 建 
议 用 它 来 作为 递归 多 层 感知 器 监督 训练 EKF 算法 的 替代 。 讨 论 这 一 方法 可 能 的 困难 。 


计算 机 实验 
15.17 在 这 一 习题 中 ， 我 们 继续 在 第 6 章 的 习题 6. 25 中 关于 支持 向 量 机 的 计算 机 实验 。 我 们 具体 考虑 图 
P6. 25 的 紧 握 起 的 多 图 盘 结 构 的 困难 模式 分 类 实验 ， 为 了 表示 的 方便 我 们 将 之 复制 在 这 里 作为 图 


zm = 
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P15. 17。 然 而 这 一 次 ， 我 们 根据 15.10 节 描 述 的 路 线 来 学 习 基 于 扩展 卡尔 曼 滤 波 器 算法 的 多 层 感知 器 
的 监督 训练 。 


对 于 多 层 感知 器 ， 利 用 下 面 的 结构 

。 两 个 隐藏 层 ， 在 第 一 个 隐藏 层 中 有 4 个 神经 元 ， 在 第 二 个 隐藏 层 中 有 3 个 神经 元 ;对 所 有 的 隐藏 
层 神经 元 都 采用 gp(v) 王 tanh(vwv) 的 激活 函数 。 

。 线性 输出 层 。 

为 了 实现 模式 分 类 ， 生 成 100 个 回合 ， 每 个 回合 包含 200 个 随机 分 布 的 训练 样本 ， 对 图 P15. 17 的 两 

个 区 域 具 有 相同 大 小 的 测试 数据 。 做 如 下 事情 : 

1. 对 于 变化 的 回合 数 ， 构 造 由 EKF 算法 计算 的 决策 边界 以 决定 “最 佳 ”分 类 性 能 。 

2. 对 被 考虑 认为 是 “最 佳 ” 的 分 类 性 能 ， 决 定 误 分 类 误差 。 

最 后 ， 比 较 你 用 EKF 算法 得 到 的 结果 和 在 习题 6. 25 中 用 文 持 回 量 机 获得 的 结果 。 


x 





图 P15.17 三 个 圆 的 直径 : di =3, d,=6, d; =9 
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